您的位置:首页 > 互联网

腾讯刘杉对话清华陶晓明,探索语义通信与视频编解码跨领域合作新方案

发布时间:2023-10-11 14:28:27  来源:互联网     背景:

近日,在腾讯全球数字生态大会“Techo前沿技术论坛”上,腾讯杰出科学家、腾讯云副总裁、腾讯多媒体实验室总经理、腾讯视频智能创作与内容平台部副总经理刘杉博士,与清华大学电子工程系教授、 2021 年"科学探索奖"信息电子领域获奖者陶晓明教授聚首,深入探讨了语义通信和视频编解码领域的交叉合作。

刘杉博士一直致力于多媒体及相关领域的技术研究,包括信号与信息处理、音视频与空间媒体数据压缩、传输交互和智能化应用等。她所带领的腾讯多媒体实验室,主要工作涉及两大方面:前沿技术的探索和标准制定,和面向产品的技术研发和应用落地。而陶晓明教授专注于广域特定场景下的语义通信,通过将人脑视觉感知、认知机理融入网络传输通信过程,解决大容量多媒体业务对无线网络带宽需求的压力。

当贝d3x发布

两位专家结合各自领域的专业知识,围绕脑启发的视频质量评价、语义赋能视频编解码以及语义通信与视频编解码跨领域合作这三大方面展开了深入的讨论。

多媒体质量评价新思路,可引入人脑感知、认知、先验知识等特征

刘杉博士提及腾讯多媒体实验室面向产品的技术研发和应用落地,从技术细分领域来看主要分为三大方向:媒体的压缩传输,智慧融合媒体,以及互动沉浸式媒体。这些方向与当前热门的概念如AIGC、XR和元宇宙密切相关。她强调多媒体是一个系统,包括信号处理、压缩、传输、互动、渲染和建模等多个环节,需要联合优化以实现最 佳性能和用户体验。性能和用户体验需要高效的质量评价体系量化评价,在传统质量评价体系之上发掘借鉴大脑的特征,来完成多媒体的质量评价,是非常有意义的创新和探索。

陶晓明教授认为,大脑有三个特征能够与多媒体通信相关。第 一是在感知,人脑对于QoE能够有主观和定性的判断,能够直接感知到好还是不好;第二是在认知,人脑全局搜索和推理的能力,如果能引入通信的编解码里面,一方面可以降低视频编码的复杂度,还能在传输过程中更好地保护上下文重要的语义信息;第三是在先验知识方面,大脑能够自动匹配之前接触过的认知,如果应用到通信中,能够降低一些特殊场景下对带宽的需求。

深度学习、机器视觉等方法,能够解决更多通用和特殊场景下的编解码需求

视频编解码,在如今5G甚至6G蓬勃发展的现在尤为重要,特别是在多媒体数据压缩中。音频、视频、图像以及新兴的VR、高维度数据等,其数据量通常很大,需要大量存储空间和传输带宽。为了解决这个问题,视频编解码技术应运而生,经过几代标准的发展,如H.264/AVC、H.265/HEVC、H.266/VVC等。深度学习在音频信号压缩方面已经取得了一些进展,但在视频信号压缩方面仍然具有挑战性。

刘杉博士指出,在机器视觉、信息(如语音和图像)处理等方面,深度学习和人工智能已经在不少实际应用中发挥作用,进而推动在视频编解码中的使用探索。目前在视频编解码标准制定中,腾讯多媒体实验室也发现了许多技术提案和趋势,以适应不同应用和环境的需求。

陶晓明教授也表示,在乡村、留守老人和儿童等特殊情境,可以通过引入脑科学的思想,使用脑电图分析来提取人的主观感知,以改善用户体验。此外,陶晓明教授还介绍了一种基于时空素描图的编解码方法,通过提取视频的轮廓、语义和关系等特征,以减小数据量。因此在接收端,需要使用生成式机器学习和强化学习方法,能够实现在特殊长江下降低数据传输量,以满足用户的需求,生成优质用户体验的视频。

语义通信与视频编解码,或能达成跨领域合作

刘杉博士认为,质量评价是无所不在的,包括目前腾讯多媒体工作室正在研究的3D空间视频压缩传输。她认为这些领域尚未成熟,有很大的探索空间,从人脑反馈出发的研究方法十分具有潜力,未来也许会对多媒体编解码标准的改进起到推动作用。陶晓明补充说,在AR、VR和游戏等领域,脑电信号可以提供有关用户体验的宝贵信息,如交互性、感觉和延时等,这对语义通信的研究也是一个新的维度,期待未来能够与腾讯多媒体实验室一道,了解更多用户需求。

腾讯多媒体实验室自 2018 年初开始代表腾讯公司参与国际标准制定,迄今为止已有超过 800 项技术提案被多项国际标准采纳并积累超过 1500 项已授权专利,数十人次在国际标准制定过程中担任重要职务,技术贡献赢得国际标准组织和业界广泛认可。实验室荣获ISO/IEC 杰出贡献奖、AVS产业技术创新单位奖、技术与工程艾美奖(Technical Emmy Award)、技术卢米埃奖(Technology Lumiere Award)、数博会领先科技成果奖、世界人工智能大会“镇馆之宝”。同时研发多媒体核心技术应用于腾讯旗下多款产品,为亿级用户提供优质服务。从 2018 年开始投入包括VR在内的沉浸式媒体XR技术研发和系统建设以及AIGC能力智能内容生产,在 2019 年首 次将VR应用于腾讯产品,之后又陆续为新华社、故宫、敦煌等合作项目以及腾讯WE大会、腾讯全球数字生态大会、东北虎国家公园提供技术支持,以多媒体实验室技术为核心的“VR全景”、“自由视角”、“点云建模”、“点云压缩”等通用解决方案已上架腾讯云官网。 2019 年,腾讯杰出科学家刘杉博士,向其所领导的多媒体实验室团队提出展开面向“智能化内容生产”技术研发的要求,并在此后的时间里带领团队打造多项核心技术并逐步完善能力矩阵,应用于多个内容生产和创作的业务场景。 2023 年团队产品XMusic荣获 2023 年世界人工智能大会“镇馆之宝”。未来多媒体实验室将持续投入相关技术建设,持续为教育、工业、医疗、文旅、地产家居、金融等to B产业场景的建设做底层技术投入。


返回网站首页

本文评论
为粉丝们而来的深度定制 三星Galaxy S20+ 5G BTS定制版最懂你心(三星s20+bts定制版)
  “颜值经济”的火爆赋予了这个时代新的含义,对于年轻消费群体来说,追逐个性潮流、享受品质生活,关注颜值成为了他们的重要特征。颜值消费也早已不满足于消费者自身颜值的...
日期:07-14
千元亿级像素高颜值手机,荣耀X50i上市成就好口碑「华为荣耀x50新款」
自 4 月21日上市,荣耀X50i作为千元档位率先采用一亿像素传感器的手机产品,便引发广泛关注。在近日迎来首销后,依托超越同级的高清影像体验,富含国风韵味的轻羽设计、超窄边全视...
日期:04-28
英伟达CEO:Android平板电脑卖不动全因营销_英伟达 平板
(万学)北京时间5月15日消息,据国外媒体报道,英伟达CEO对于Android平板电脑迄今在市场上遭遇的冷遇感到颇为不满,他直言不讳地指出,Android平板电脑卖不动的根本原因是营销方面出...
日期:07-27
iPhone15量产在即,type-C接口、2TB存储能否继续提价?_iphone bug type 115
苹果公司已经不再公布iPhone的年销量,转而公布销售额和利润,在全球手机市场发展不景气的情况下,这种财务报表或许会更好看一些;当然,这是建立在iPhone均价不断提升的基础上——去...
日期:07-07
微软高管称Bing领先Bard 6个月:但永远不会低估谷歌「微软领导」
近日,谷歌正式上线了人工智能聊天机器人Bard,与微软的NewBing直接竞争。今天稍早些时候,微软广告和网络服务部门负责人Mikhail Parakhin在社交媒体回答了用户提问,表达了自己对...
日期:03-24
快手电商新增《鲜花绿植寄养类目商品发布规范》
近日,快手电商发布了公告称,为提升平台服务水平和商户经营质量,保障用户权益,平台现对新增类目【鲜花绿植/农资】>>【鲜花绿植寄养】制定商品发布规范,并于2023年1月11日正式生效...
日期:01-09
早报|「红绿灯新国标」不存在/华为 Mate50 官宣发布时间/ 共享充电宝再涨价
爱范儿早报导读「红绿灯新国标」不存在共享充电宝涨至 4 元每小时微博将上线个人页展示评论功能睡眠不足 7 小时的人胳膊大腿更粗香飘飘半年赔上亿国内首批新能源汽车动力电...
日期:08-23
平均5个人抢2个岗位-脉脉高聘发布《2023年春招人才迁徙报告》_脉脉招聘官网
【】5月31日消息,脉脉高聘携手杭州未来科技城国际人才园共同举办“转型与重塑——人才饱和周期下的职场趋势与组织升级”人才创新发展论坛,并发布《2023年春招人才迁徙报告》(...
日期:09-25
女子网上买iPhone 14收到一堆铁片 京东自营退一赔一
购买iPhone手机,却收到一堆铁片,相信谁遇到都会直接懵掉。iphone11玻璃后壳据小强热线报道,2月3日,广东曾女士称,之前她在苹果的京东自营店购买了一台苹果iPhone 14手机。1月31日...
日期:02-08
打卡智能中国:村里出了“飞行员”
图片来源@视觉中国文|脑极体提起返乡青年,你的第一印象是什么?失败、躺平、卷不动了?我们在浙江、福建、青海等地,参观一些农业智能化项目时,陪同参观的“飞手”,高兴地跟我们分享...
日期:09-03
星际线飞船首次载人飞行测试推迟至2024年3月-波音「星际飞船sn11」
8 月 8 日消息,美国当地时间周一,波音公司宣布,该公司已将其星际线飞船的首次载人飞行测试推迟到至少 2024 年 3 月。波音公司“商业宇航员”计划(Commercial Crew Program)的项...
日期:09-18
小鹏汽车10月卖出5101台_小鹏汽车5月交付5686台
几家欢喜几家愁!11月1日,造车新势力们纷纷公布了上个月的成绩单,曾经头部梯队的小鹏汽车10月份统共卖出了5101台,其中P7交付2104台,P5交付1665台,G3i交付709台,G9交付623台。跟破万...
日期:11-03
BBC纪录片《地球脉动》第三季来了 共8集 年内开播「bbc纪录片地球脉动第二季」
9月2日消息,BBC纪录片《地球脉动》第三集正在制作中,将于今年晚些时候在BBC One播出。BBC Studios全球市场总裁尼克珀西还宣布《地球脉动》第三季也将登陆腾讯视频、爱奇艺和...
日期:09-03
西安不倒翁小姐姐回应生娃后变憔悴:少贩卖焦虑「西安不倒翁姐姐事件」
近日,西安大唐不夜城的演员冯佳晨成为网络热议的焦点。一段“大唐女子绝美牵手”的短视频中,她扮演的“唐妞”宛如随风摇摆,轻舞罗扇,将中国唐朝美人的妩媚娇羞演绎得淋漓尽致。...
日期:02-10
Midjourney发布V5.2版本 新增“Zoom out”画面扩展功能
6月25日 消息:日前,Midjourney 推出了最新Midjourney5.2版本,并引入了社区长期以来一直要求的画面扩展功能。"Zoom out"是Midjourney给这一功能起的名字,在其他AI图像生成器中...
日期:06-25
Stability AI 政策负责人:人工智能不会摧毁创造力「人工智能的政策意识」
7月19日 消息:Stability AI 公共政策主管Ben Brooks表示,人工智能不会摧毁创意市场,反而会为创作者赋能。Ben Brooks 在美国参议院知识产权小组委员会上发表讲话时表示,像 Stab...
日期:07-19
传Coinbase因加密货币上市问题面临SEC审查(coinbase上币信息)
文/魏昊铭   据三位知情人士透露,Coinbase正面临美国方面的调查,调查内容是该公司是否不当地允许美国人交易本应注册为证券的数字资产。两位不愿透露姓名的人士表示,自从Coin...
日期:07-31
商汤科技推出基于大模型体系的数字水印解决方案SenseTrust「图文识别商汤科技不错」
8月31日 消息:商汤科技率先推出了基于其大模型体系的数字水印解决方案 SenseTrust,以确保数据的可溯源和可追踪性。数字水印是一种将标识信息嵌入到 AI 生成的数字内容中的技...
日期:08-31
微星推出新款电竞显示器:配OLED副屏,可显示电脑参数_微星主板显示器
  1月8日消息 根据OC3D的报道,微星推出了MEG381QCR曲面电竞显示器,3840x1600分辨率,尺寸为38英寸。这款显示器还搭载了一块OLED副屏,可显示电脑参数。   微星MEG381QCR的...
日期:11-02
618正式结束,iPhone依然是最大赢家,荣耀和华为最让人意外「荣耀和苹果哪个好」
一年一度的618大促活动正式落下帷幕,各大手机厂商上半年的表现也基本上定型,今年618手机厂商的表现如何?毫无疑问,苹果依然是最大的赢家,品牌累计销量和销售额均是排行榜首,目前的...
日期:06-19