您的位置:首页 > 人物动态

腾讯音视频实验室刘杉:编解码标准制定没有终点

发布时间:2022-07-16 07:01:48  来源:互联网     背景:

  2017年12月28日,由腾讯社交网络事业群(SNG)主办TSAIC学术&工业交流盛会在腾讯滨海大厦举行,150余位来自麻省理工、斯坦福、卡耐基梅隆、清华、中科院计算机所、微软研究院等海内外知名高校、研究所的学者和研究员受邀出席。

  腾讯音视频实验室杰出科学家刘杉作为主讲嘉宾出席此次大会。在会上,她分享了视频编解码领域的核心技术和编解码标准的变迁。她说目前我们所处的阶段应该视为下一代视频编解码标准制定的一个起点,而非终点。在视频编解码方面,我们会持续进行技术研究和标准布局,为用户带来更好的体验。

  以下是刘杉演讲全文。

  非常高兴也非常荣幸来到这里跟大家做一个分享。我今天分享的主题是“视频编解码和标准化”。

  在分享之前,我简单介绍一下我自己。跟刚才两位嘉宾的背景稍稍不一样,我是来自工业界的博士,之前在一些公司工作过,做过研究、也做过产品。如果在座有同学想了解博士在工业界的心路历程,欢迎大家找我分享。

  这些年工作的内容主要在视频编解码和传输,也包括前处理,后处理和一些比较宽泛的多媒体相关项目。近几年我们聚焦在视频编解码的标准制定,也是今天我要跟大家分享的一个内容。我是刚刚加入腾讯的音视频实验室。

  言归正传,今天分享的主题主要包括两个部分,一个部分是视频编解码,另外一部分是其标准化。最后我想花一点时间介绍一下音视频实验室现有的一些研究成果和场景。

完美世界池宇峰 专访

  我认为知道为什么要做一件事对任何一个项目来说都是至关重要的。之所以要做视频压缩这件事,因为视频的数据量是非常非常大的,大到什么程度呢?举个简单的例子,有一部两个小时的电影,HD 格式,每秒60帧, 现场有没有视频编解码背景的同学可以告诉大家,这个电影如果不压缩文件会是多大?

  (某位现场嘉宾:“50G。”)

凯迪拉克纯电轿车

腾讯音视频实验室刘杉:编解码标准制定没有终点

  我们大家一起来做一个快速算术,1980×1080像素每帧,60帧每秒, 2小时就是120分钟,如果不压缩是大约2.7TB。那就是说你花大概一百美金买一个移动硬盘可以装这样一部HD电影。那如果我们说价格低要求用SD 格式, 30fps,如果不压缩也需要大约224GB。 你的手提电脑大概可以装两部这样不压缩的电影。同样,如果不压缩,我们需要传输的带宽是很大的,HD 60fps的视频内容如果不压缩需要大约3Gbps的带宽传输。SD 30fps的视频内容也需要大约250Mbps的带宽。

  我花了一分钟的时间来做这个数学,是要说明,视频压缩这件事情不是重要的,而是必要的。一件事情如果是必要的,我们就要去做。

什么是视频?

  为了做视频压缩,我们首先要了解什么是视频。简单讲,视频是一组图片,但是它不是一组随机的图片,而是有运动关系的图片,我们做视频就要抓住两个点:运动关系和图片。

  基于这两个基本点,视频压缩技术可以大体分为两类:一类是针对图片压缩的,比如chroma sub-sampling、 transform、quantization、 熵编码等;另外一类是针对运动关系的,比如运动估计、运动补偿和一些相关技术。

twitter的ceo

  下面我们一起对这些基本技术做一个快速简单回顾。第一个是chroma sub-sampling。我们把图片从RGB转换到 YUV然后对色度做一个sub-sampling,从YUV444 到 YUV420. 这件事对博士来说完全没有什么技术含量,但是我们立刻可以节省一半的数据带宽。

  下面这个有一点技术含量了,是transform。Transform是把信息从空域转移到频域,以达到decorrelation, energy compaction的目的。我们在视频编解码里面最常用的是DCT,最近的标准里面也开始引入了DST。还有其他的一些还在探讨之中。

  Transform 之后是quantization。(PPT)右上角是一个举例的quantization matrix,左下角是一个举例的 coefficient matrix,我们用coefficients 除以 quantization系数就得到右下角这个 quantized coefficient matrix。我们做压缩的看到这个会很兴奋,因为我们看到很多很多的0,然后我们会用一个遍历,比如 zig-zag, 来调整这些数字的顺序。看到调整后的数据我们会更加高兴了,因为有更多连续的0,这是为下一步做准备。下一步是Entropy Coding,是一种无损压缩方式,可以把文件压缩的更小。

  刚才快速分享了几种针对图像压缩的技术。

  我们再回到刚才讲的什么是视频,视频就是运动关系和图片。图片方面我们已经讲了,下面我们要看一下运动关系这部分。这里有一个简单的例子。这是一个视频里面的三帧,我们可以看到它们之间有很明显的相关性。视频时域压缩技术就是要找到相邻或相近图片的相关性从而去除时域上的冗余度。为了更好的利用图片之间的时域相关性,我们引入运动补偿。而我们真正在做视频编解码的时候,不像很多领域那样做的会去做object detection、segmentation等等,在主流的视频编解码解决方案或标准里面我们还是用块状的方式,所以对于运动补偿方面有很多相关技术,比如说预测单元的划分,运动矢量本身的预测和编解码等等。我们真正在标准制定的时候,关于运动补偿的这一大块,通常都是划分成很多个技术分组来具体讨论它相关的各个技术子级和细节。

  有了这些主要的图片压缩和处理运动关系的技术模块,我们就可以得到一个简单的视频编码器示意图和一个简单的视频解码器的示意图。

  刚才给大家看的是最简单的video codec block diagram,大概是MPEG-2之前的编解码器状态。经过这二三十年的演变和进化,现在video codec已经变得复杂了很多,有更多模块,也有更多技术细节。这是近期HEVC/H.265的Video Encoder,待会儿我会再详细讲这个标准。

  花了几分钟时间,在座各位已经是视频编解码的专家了,我们可以进入下一个内容,视频压缩标准。

视频压缩标准

  在讨论视频压缩标准的一开始,我们仍然要问Why? 为什么要做这件事。道理也很简单,压缩过的视频是不可读的binarized bitstream, 从某种角度讲,压缩如同加密,如果没有一个大家都公认的协议或者密码本这样的东西,Apple压缩的视频内容就没有办法被Orange解压缩。所以为了让世界上任何以某个厂家、产品或App压缩的视频内容可以被任何其他人解压缩和播放,我们就需要全世界人民都接受的标准。

  标准,尤其是国际标准,就不是一个人、两个人都说了算的东西,它需要有标准组织根据严格的流程来制定。有两个历史比较悠久的国际标准组织,其中第一个是ITU,在它下面有一个工作组是VCEG,负责研究视频编解码的技术和制定标准;第二个标准组织是ISO/IEC JTC 1, 在他下面有一个工作组是MPEG,负责是在ISO/IEC下面研发视频编解码的技术和制定相关标准。

  大约两年前一些公司联合发起了一个新的标准组织AOM,致力于制定不收费的视频编解码标准。还有一个标准组织,我觉得也是非常重要的:AVS,是我们国内的标准组织。近些年AVS做得越来越好、越来越强大,现在是完全不可忽视的一个力量。

  我们来梳理一下时间线。早在1984年ITU已经制定了第一个标准H.120,因为比较早,可能现在周围熟悉它的人不多;到1990年推出了H.261,这个已经是被大家广泛使用的;1993年ISO/IEC推出了MPEG-1 Part2, VCD用的就是这个格式;1995年出了H.262/MPEG-2 Part 2,这个标准是ISO/IEC和ITU两个组织共同制定的。

  我不知道在座多少同学用过DVD?DVD这个格式我们小时候用了很久,DVD这个格式就是用了MPEG-2,数字电视广播在很长时间里也是用的MPEG-2 Part2,直到今天很多数字电视广播还在用MPEG-2。到2003年有了H.264/AVC,像Blu-ray、HD-DVD这些格式都是用这个标准,很多新的电视节目也都是开使用H.264,还有OTT。又过了大概十来年,我们推出了H.265/HEVC标准。

  无论是从MPGE-2到H.264还是从H.264到H.265,我们通常认为的每两代重要标准都做到了压缩率翻倍。

HEVC,怎么在前一代标准的基础上做到加倍压缩?

鲍尔默是微软第几大股东

  下面花一点时间讲一下HEVC。HEVC在2007年左右开始预研,到2010年初CfP, 之后经历了两三年全世界的公司、大学、研究机构一起努力,在2013年出台了Version1,包括 main、main10、main still picture profiles。2014年出版了Version2, 包括RExt, SHVC, Multiview。2015年出版了Version,加入3D。2016年出了Version4,也是HEVC的最后一个版本,包括之前的所有内容并加入Screen Content Coding。

  制定标准是一个蛮艰苦的过程,不过努力的工作一般来说回报都是不错的,HEVC今年获得了第69届的艾美工程奖,我也非常荣幸受邀参加了这个盛会。必须指出的是,虽然参加艾美奖活动的人只有十几个,但是这套标准的制定积累了上千个工程师和科学家、研发人员的努力。

  那我们一起来看一下HEVC是怎么在前一代标准的基础上做到加倍压缩的。这里是一个H.264的 Block Diagram,H.265在此基础上对每个模块都做了很多改进,引入了新的技术甚至是新的模块。由于今天时间有限不太会讲的很具体,因为每一个技术又是一个新的讲座。

  首先关于编码和预测单元的划分。做过264的同学都知道,H.264里面用的是 macroblock的单元结构。在265里面我们用了更大、更多种、更灵活的单元划分方式,并且它是递归的。 在Inter Prediction 方面,我们也做了不少新技术,包括更多形状和大小的预测单元、Merge mode、AMVP, 新的DCT based 插值滤波器,等等。在帧内预测方面,对比264里面9个luma intra modes, 4个chroma intra modes, 265用了35个预测模式对luma, 其中包含33个方向性预测模式和 DC mode、 Planar mode。为了更有效的压缩,35个预测模式的压缩方法也比264做了更新。在transform 方面,除了变换模块可以更大,变换模式也在 DCT之上引入DST,并且是根据预测模式进行切换。同时扫描方式也更灵活, 引入水平扫描、垂直扫描, 并根据预测模式进行切换。在环路滤波器方面,除了对deblocking filter进行改进还引入了一个新的环路滤波器SAO。还有很多技术,今天因为时间关系只能浮光掠影地讲一下。有兴趣的同学欢迎线下找我讨论技术细节。

  我们来做一个265和264 压缩效率的比较。我们可以看到在所有的测试序列和测试条件下,平均来说265比264的压缩效率提升了35-40%, BD-rate。如果单单把HD 测试序列拿出来看,265比264的压缩效率提升可以到40-45%。我们做视频、视觉或者图像的同学都知道,数据是一回事,主观感受也是非常重要的。我们也请了专门的人做主观测试,结果是对于HD 测试序列265比264可以提升67%,对于 SD 测试序列265比264 仍然可以提升49%。这些数据都显示265对比264达到了一个压缩翻倍的目标。

  做标准的人是永远不会停下来的,标准这个事情是一代一代可以一直做下去的。对于下一代标准(还没有正式名字,暂时称“266“)的预研大概在2013年、2014年很多公司就开始了,2015年10月的时候,ISO/IEC、ITU这两个相爱相杀这么多年的组织决定一起来做下一代标准,成立了JVET。又经过了两年时间的共同研究,在今年十月标准组织发了正式的CfP,明年初全球的公司、学校、科研人员又会带着他们的解决方案来一起讨论,在未来两三年时间里面我们又会很努力的工作,争取在2020年底完成下一代标准的制定。

女神节观影

  刚才讲我们对”H.266”已经做了很多预言,这张图展示的是现在已经公开的一些编解码工具,把这些工具放在一起,我们看到对于4K和2K的情况,我们已经有35%的 coding gain。这给了我们一定的信心可以努力去做出下一个压缩翻倍的标准。需要指出的是,这是一个起点,不是一个终点,在未来两三年里面,我们会进一步把coding gain的数值增大,把编解码复杂度降低,带给大家更好的体验。

  这大概就是我今天分享的关于视频编解码和国际标准的浮光掠影的简单介绍。

腾讯音视频实验室现有成果和场景

  下面我用简单一两分钟时间介绍一下我们音视频实验室的一些其他成果和场景,也让大家感受一下我们实验室除了做充满数据的编解码之外还有一些可能更有趣的工作。

  比如降噪,比如低照度处理,比如视频超分,等等。因为我们要落地产品,所以我们的算法实质性要求很高。比如说这个任意目标跟踪组件,它可以跟踪一个移动很快的物体,当物体旋转、颜色有改变,或者是被部分遮挡住的时候也不会丢失。在iPhone 7+ 上测试是每秒一百帧的速度。我们的TPG组件提供了一套完整的图像压缩解决方案,被用于QQ空间,QQ浏览器,腾讯手机管家,腾讯新闻,腾讯体育,天天快报等多款公司产品。

  另外我们实验室在语音方面也有很强的技术积累,一些成果比如语回声抵消、降噪、变声、3D音效等等,欢迎同学们下午到我们音视频实验室分论坛进行深度技术交流和体验 demo.

  我们也在探索跟AI相关的课题,AI语音降噪和分离,包括AI的语音美化。我们不仅只美化样子,还要美化声音,这是全方位的美化。还有AI辅助的音视频的质量评估,流控,DL辅助视频编解码等等。

  以上是今天一个简单的分享,非常感谢大家。

  刘杉个人简介:

  刘杉本科毕业于清华大学电子工程系,硕士和博士毕业于美国南加州大学电机工程系,现任音视频实验室杰出科学家。刘杉加入腾讯之前,曾任华为美国多媒体实验室主任兼视频标准首席科学家和全球项目负责人;在此之前担任联发科美国视频和视觉技术开发部主任。

  在联发科任职期间,组建联发科美国多媒体标准团队并帮助公司实现了在视频编解码和系统等标准领域从零到一的突破。作为主要发明人和联合发明人的50余篇技术提案被ITU-T H.265 | ISO / IEC HEVC, MPEG-DASH, OMAF, MMT 等国际标准采纳。于2013年荣获联发科最高荣誉研发金奖以表彰在标准领域对公司的贡献。

腾讯副总裁曾宇

  在此之前还曾担任MERL主任研究员、IBM客座研究员、索尼资深算法工程师等职。她曾多次担任标准组织技术分组与专家小组的主席和联席主席,并多次在国际顶级学术会议担任领域主席、论文评审委员或做邀请报告。发表了超过 30 篇专业期刊和会议论文,是超过 200 个美国和全球专利申请的发明人,其中许多发明已被授权并成为标准基本专利或被内置于多款通信和多媒体产品中。是ITU-T H.265 | ISO / IEC HEVC V4(定稿版本)七位主编之一。

蒲公英智能组网


返回网站首页

本文评论
孙正义机器人公司_孙正义坚信机器将比人聪明 为此疯狂投资收集数据
  (原标题:Masayoshi Son’s Grand Plan for SoftBank’s $100 Billion Vision Fund)未来手机市场线下渠道的发展趋势  10月12日消息,据CNBC网站报道,今年7月底,数字地图创...
日期:07-16
微软贺乐赋:中国的Win8开发者人数全球第一
  前天,微软全球资深副总裁、微软大中华区董事长兼CEO贺乐赋做客搜狐IT,就微软的产品和市场策略同搜狐网友进行了交流。贺乐赋表示,在微软的Windows开发者阵营中,中国开发者人...
日期:07-14
张亚勤退休,百度AI商业化提速_百度总裁张亚勤出席2018达沃斯论坛,论道人工智能的变革力量
  2018年世界经济论坛年会(冬季达沃斯论坛)于1月23日至1月26日在瑞士达沃斯正式举行。除了有关全球化前景的议题引发激辩外,伴随着人工智能等技术进步和数字经济的不断发展...
日期:07-16
思科CEO钱伯斯管理案例分析_思科CEO钱伯斯:仅三成企业能在未来十年幸存
建行信用卡1分购惊喜  思科今年的大客户会议Cisco Live于当地时间周一在旧金山圣迭戈(San Diego)举行。这是担任思科CEO二十年的约翰·钱伯斯(John Chambers)最后一次在主...
日期:07-14
amd锐龙是x86架构吗_AMD再曝全新x86架构:真的殊死一搏了
  在近日的一次技术会议上,AMD首席财务官兼高级副总裁Devinder Kumar又提到了该公司全新的x86 CPU架构“Zen”,透露说它将在2016年诞生,首先用于服务器领域,AMD目前正与客户积...
日期:07-14
乐视电视不死,官方预告新品“Zero65”_乐视电视zero65s
  9月21日,乐视控股持有的乐融致新股权将被正式进行司法拍卖,该公司在2018年估值最高为270亿元,而现在乐融致新全部股权估值只有18亿元左右。iphone12pro渲染图小新pro14酷睿...
日期:07-22
黑鲨亮相2018电信天翼展 AI 2.0指日可待
  近日,高通在2018天翼智能生态博览会中展出了多款采用骁龙845平台的终端设备,同时还对AI人工智能开发的整个方向进行了解读。其中,黑鲨游戏手机算是相当抢眼的存在。淘宝强...
日期:07-22
三星CEO尹富根:五年内三星硬件均支持物联网
  北京时间1月6日消息,三星电子总裁兼CEO尹富根今天在2015年国际消费电子展(CES)上透露了三星技术支持物联网的时间表:到2017年,所有三星电视将成为物联网设备,五年内所有三星...
日期:07-14
摩拜使用次数领先第二名ofo 60% 订单量或已破5000万「摩拜与ofo」
  民间俗称的“金九银十”历来是品牌竞争的黄金期,在共享单车行业,两大巨头摩拜与ofo已经成为行业发展风向标,其庞大的用户基数和品牌影响力与日俱增。不久前,权威机构QuestMo...
日期:07-16
刘庆峰发内部信透露预案: 全年业绩将保持良性健康成长
  中美贸易谈判召开在即,美国商务部于10月8日公布了最新出口管制“实体清单”,其中涉及到8家中国人工智能企业,包括商汤科技、旷视科技、科大讯飞、海康威视等知名科技公司。...
日期:07-17
硅谷女投资人自白:生活在男人的世界里
  10月14日消息,据国外媒体报道,《福布斯》杂志网站日前刊发了一篇文章。从投行Rivet Ventures的执行合伙人Rebeca Hwang的自述出发,介绍了硅谷女性人才的工作、生活情况。uf...
日期:07-14
魅族华海良:注重用户体验 2020年推5G手机_魅族 5G
  新浪手机讯 8月29日下午消息,昨日魅族正式发布了魅族 16s Pro旗舰手机,同时在系统,配件,声学,生活周边方面也推出多款新品。魅族科技副总裁华海良在会后接受了媒体专访,回答了...
日期:07-17
对话荣耀赵明:全面屏时代,荣耀如何占位?
  10月11日,荣耀在西安发布了首款全面屏手机畅玩7X。很多人并没有发现的是,这一天刚好临近“双十一”战场还有一个月的时间,一直以互联网手机品牌定位的荣耀显然正在蓄力一搏...
日期:07-16
刘强东:65岁前不会退休 京东目标是做世界最大电商「刘强东现在在京东的地位」
  北京时间1月24日晚间,瑞士当地时间1月24日下午消息,京东集团董事局主席兼CEO刘强东当地时间下午参加了2018冬季达沃斯年会的对话环节。谈到了自己的创业经历、个人生活以...
日期:07-16
快看 | 马化腾:产业竞争正从“单打”变为“双打”_马化腾:产业竞争正从“单打”变为“双打”
  马化腾表示,目前产业竞争的主赛场正在由“单打”PK逐渐变为“双打”比赛。实体产业的竞争不再是单打独斗,各个实体产业正在与信息产业结合,形成新搭档来参与竞争。华硕天选...
日期:07-17
360浏览器任寰:安全防御重点在降权和隔离
  12月14日,在360SyScan国际安全会议上,360浏览器技术总监任寰分享了Chrome浏览器安全架构的演化历程。他强调,任何程序都可能出现漏洞,为了尽可能降低漏洞风险,软件应以最小权...
日期:03-18
郭田勇:百度钱包创新化程度更强 代表移动支付未来发展方向
  “百度钱包的加入,令得第三方机构的市场化程度更高、创新化程度更强,对其进入移动支付市场,总体来说是非常看好的。” 对于百度公司旗下支付业务品牌“百度钱包”的正式发...
日期:07-14
高端访谈|连锁零售业CFO钟军:如何用数智变革激活财务团队
  从国民内衣品牌都市丽人,到箱包领军企业爱华仕,高速发展背后的财务密码是什么?一个优秀CFO的能力圈是什么?财务数字化转型成功的支点在哪里?如何洞察费用管控的底层逻辑…...
日期:07-19
百度地图邬皛頔:所见即所得是下一代地图应用的关键「认知地图研究及应用」
  随着人工智能技术的日新月异,AI已经从棋盘走进普罗大众的现实生活,并朝着IoT万物互联网时代的“水电煤”基础设施的方向发展。这种技术趋势下,地图应用也在AI化。作为国内...
日期:07-16
工匠精神:向互联网大佬的手机情怀致敬_互联网+工匠精神
  一个胖子的天生骄傲奥迪公共充电金联发科天玑1000跑分安兔兔  2015年8月25日,伴随着现场8000名观众一波波此起彼伏震耳欲聋的欢呼声中,那个微胖的熟悉的身影又矗立在舞...
日期:07-14