您的位置:首页 > 互联网

音频秒生全身虚拟人像,AI完美驱动面部肢体动作!UC伯克利Meta提出Audio2Photoreal

发布时间:2024-02-06 02:26:06  来源:互联网     背景:


新智元报道

编辑:拉燕

【新智元导读】最近,来自Meta和UC伯克利的研究人员,发布了一种最新的音频到人像模型。操作简单,输出极致逼真。

就在最近,Meta和UC伯克利联合提出了一种全新的虚拟人物形象生成的方法——

直接根据音频生成全身人像,效果不仅逼真,还能模拟出原音频中包含的细节,比如手势、表情、情绪等等。


论文地址:https://arxiv.org/abs/2401.01885

话不多说,直接上图。


可以看到,人像刷地一下就出来了,十分逼真。

而且从上面的文字对话可以看到,就是在讲可以用音频生成虚拟人像这件事。讲者的手势动作真的像是在做讲解。

音频到Avatar,一步!

这个系统不光可以生成全身逼真的形象,人像还会根据二人互动的对话动态做出手势。

给定语音音频后,音频会为一个人输出多种可能的手势动作,包括面部、身体和双手等部位。

applewatch电池健康

Meta表示,方法的关键就在于将矢量量化带来的样本多样性优势与通过扩散获得的高频细节相结合,从而生成更具动态和表现力的动作。


研究团队使用了高度逼真的人像,将生成的运动可视化。这些头像可以表达手势中的关键细微差别(如讥笑和傻笑)。

为了促进这一研究方向,Meta首次引入了一个叫作多视角对话数据集的玩意儿,可以让用户进行逼真的重建。

实验表明,Meta的新模型能生成恰当且多样化的手势,从性能上讲,要优于扩散和纯VQ的方法。

此外,在研究过程中,Meta在感知评估这一块强调了逼真度在准确评估对话手势中所包含的微妙运动细节方面的重要性。

Meta已将代码和数据集公开发布在了网站上。

具体来看,要实现这个最终结果,有以下6个步骤:

  1. 一个新颖、丰富的二元对话数据集,可以进行逼真的重构。


  1. 由三部分组成的运动模型:面部运动模型、引导姿势预测器和身体运动模型。


  1. 给定音频和预训练唇语回归器的输出,Meta训练一个条件扩散模型来输出面部运动。


  1. 对于身体部分,Meta将音频作为输入,并以1fps的速度自回归输出VQ-ed引导姿势。


  1. 然后,将音频和引导姿态传递到同一个扩散模型中,以30 fps的速度填充高频率的身体运动。


  1. 最后,生成的面部和肢体运动都会传入Meta训练过的人像渲染器,生成逼真的人像。


然后,成品就有了!


Meta在博客中列举了四个比较有特色的点,以此来凸显效果的逼真和模型的强大。

  1. 甩腕表示梳理要点;讲故事时耸肩。


  1. 表达它们的发生肯定是有原因的时,强调手臂的动作;用手指的动作来表示陈述。


  1. 通过手部动作来配合谈话,以及声音的起伏。



  1. 提问时手指的动作细节;想问题时头向后仰,做思考状;回答时手向外推。


论文

经过前面的介绍,整个流程大家估计已经很熟悉了。

无非就是,音频输入、中间过程,以及最终输出。


关于对话的原始音频,Meta引入了一个模型(上面提到过),该模型能为两人中的其中一人生成相应的逼真面部、身体和手部动作。

360商机

研究人员从记录的多视角数据中提取潜在表情代码来表示面部特征,并用运动骨架中的关节角度来表示身体姿势。

该系统由两个生成模型组成,在输入二人对话音频的情况下,生成表情代码和身体姿势序列。


然后,就可以使用Meta的神经人像渲染器,逐帧渲染表情代码和身体姿势序列。

首先,脸部与输入音频的相关性很强,尤其是嘴唇的运动,而身体与语音的相关性较弱。这就导致在给定的语音输入中,肢体手势的合理性更加多样化。

其次,由于在两个不同的空间(学习到的表情代码与关节角度)中表示面部和身体,因此它们各自遵循不同的时间动态。因此,研究人员选择用两个独立的运动模型来模拟面部和身体。这样,脸部模型就可以将其能力用于生成与语音一致的脸部细节,而身体模型则可以专注于生成多样但合理的身体运动。

此外,面部运动模型是一个扩散模型,以输入音频和由预先训练的唇部回归器生成的唇部顶点为条件,如下图所示。


对于肢体运动模型,Meta发现,仅以音频为条件的纯扩散模型产生的运动多样性较少,而且在时间上显得不可思议。

但是,当以不同的引导姿势为条件时,质量就会提高。

涨涨涨!特斯拉全自动驾驶系统下个月又要提价了

因此,Meta选择将身体运动模型分为两部分:首先,自回归音频条件变换器以1fps 的速度预测粗略的引导姿势,然后扩散模型利用这些粗略的引导姿势来填充细粒度和高频运动。


为了从音频输入生成面部动作,Meta构建了一个以音频为条件的扩散模型,遵循DDPM对扩散的定义。

前向噪声过程定义为:


其中,F(0)近似于无噪声的面部表情代码序列,τ∈ [1, ... , T˙]表示前向扩散步骤,ατ∈ (0, 1) 遵循单调递减。当 τ接近T˙时,Meta对F(T˙)∼N(0, I)进行采样。

为了逆转噪声过程,Meta定义了一个模型,从噪声F(τ)中去噪F(0)。

然后,将前向过程应用于预测的F(0),就能得到反向过程的下一步F(τ-1) 。

而对于身体动作的模型,给定对话的输入音频后,自注意力模型P会生成多种多样的引导姿势序列样本,包括倾听反应、说话手势和插话。

P会从丰富的已学姿势代码库中采样,可生成各种姿势,甚至还有如指点、搔痒、鼓掌等小动作,在不同样本中具有很高的多样性。


然后,这些不同的姿势将被用于身体扩散模型J的条件。

实验阶段,Meta评估了模型有效生成逼真对话动作的能力。

研究人员根据跟踪的实况数据(F、J)对结果的真实性和多样性进行了定量评估。

同时还进行了感知评估,以证实定量结果,并衡量生成的手势在特定对话环境中的适当性。

评估结果表明,在逼真的头像上呈现的手势比在三维网格上呈现的手势更容易被评估者感知。

下图为基线和消融(ablation)与实况(GT)的对比。下箭头↓ 表示越低越好。

Meta对数据集中的所有受试者取平均值,并对Divsample的5个序列进行采样,并对每个指标的所有采样取平均值。下标为标准偏差(μσ)。


下图为唇部动作的误差。垂直和水平距离是上下和左右关键点之间沿Y(X)轴的距离。

下表中显示的是GT与生成距离之间的L2差值。Mesh L2指的是唇部区域生成网格顶点与GT网格顶点的误差。误差单位为平方毫米。


为了量化对话中的手势连贯性,Meta主要通过感知评估来评价。

研究团队在Amazon Mechanical Turk上进行了两种不同的A/B测试。在第一个测试中,评估者观看的是在普通非纹理网格上渲染的动作。在第二项测试中,评估者观看的是逼真人像上的运动视频。

在这两种情况下,评估者都观看了一系列视频对比。

在每对视频中,一个视频来自Meta的模型,另一个视频来自最强基线LDA或GT。然后,评估人员被要求根据对话音频找出看起来更合理的动作。

同时,可选答案还细化到了略微偏好与强烈偏好。

如下图所示,Meta引入的方法明显优于最强基准LDA,大约70%的评估者在Mesh和照片真实设置中都更喜欢Meta的成品。

有趣的是,当以逼真的方式可视化时,评估者对该方法的偏好从略微偏好转为了强烈偏好。

而当将Meta的方法与GT进行比较时,这一趋势仍在继续。

在基于Mesh的渲染中,Meta的方法与GT相比,同样具有竞争力,但在逼真领域却落后了。43%的评估者强烈倾向于GT而非Meta的方法。

由于Mesh通常会掩盖微妙的运动细节,因此很难准确评估手势中的细微差别,导致评估者会对不正确的运动更加宽容。

综上来看,结果表明,逼真度对于准确评估对话动作至关重要。


参考资料:

https://people.eecs.berkeley.edu/~evonne_ng/projects/audio2photoreal/

责任编辑:郜雪丹_NT5097


返回网站首页

本文评论
山东乳山楼市:6万拿下一套海景房  网友表示不敢相信_山东乳山海景房价格为什么这么低
难道海景房已经不再受欢迎了?近期,乳山地区的房地产市场引起了众多关注,一套海景房,只要6万就可拿下,这么便宜的价格,让人难以置信。印度公布5G据了解,银滩旅游度假区内最便宜的一...
日期:02-09
4月26日公测!米哈游新作《崩坏:星穹铁道》将登陆PS平台「崩坏星穹铁道官方下载」
米哈游近日已经正式宣布,《崩坏:星穹铁道》将于在4月26日在PC、安卓与iOS三端正式开服,4月23日可率先预载。值得一提的是,这次除了这三大平台之外,该作还将登陆索尼PlayStation平...
日期:03-28
小米双十一力度大吗「「基本确定在双十一前发布 「小米14系列将提前发布」」」
来源:中关村在线世界卫生组织把手机列入致癌危险物质据财经网科技报道,由于高通骁龙峰会的提前举行,今年各家安卓旗舰手机的发布日期也预计会提前。小米14系列手机的最新消息在...
日期:09-07
拿铁的香气「酱香拿铁一日销售542万杯 收入超过1亿元」
瑞幸咖啡在9月5日的官方微博上宣布,与贵州茅台联手打造的酱香拿铁单品,在首日就卖出了超过542万杯,收入超过1亿元。苹果macbookpro会降价吗极米投影仪2020年发布会酱香拿铁是瑞...
日期:09-05
“数据强基、智领未来” 马上消费亮相“2023第二届数据治理年会暨博览会”
(原标题:“数据强基、智领未来” 马上消费亮相“2023第二届数据治理年会暨博览会”) 2023年12月13日至15日,“2023第二届数据治...
日期:12-14
洋码头创始人独家回应:人生被描述得一塌糊涂,但不会跑也不会赖账
曾碧波需要半年时间,“要不就活过来,要不就‘死’在那里”。文|《中国企业家》记者 刘哲铭编辑|李薇头图来源|视觉中国拖欠商家货款达2亿元,现金流恶化,总部人去楼空,员工大量流失…...
日期:09-20
iPhone 14 Pro Max和Mate 50 Pro一起洗热水澡 华为赢了?
要说当下关注度最高的手机,非iPhone 14 Pro Max和华为Mate 50 Pro莫属。今天,B站UP主手机暴力测试”就对这两款旗舰进行了虐机测试,直接给它们冲热水澡。视频中,UP主将iPhone 14...
日期:10-12
失去SSL证书的保护,将对网站安全造成哪些影响?_失去ssl证书的保护,将对网站安全造成哪些影响呢
在经济全球化、网络化的时代,重要信息传输和产品买卖及服务都需要网络的支撑,随着网络信息技术的深入发展,网络安全逐步成为企业关注的焦点。但现实情况是,全球各地的网络犯罪分...
日期:04-13
中关村买“苹果”好比逛菜市 早中晚三个价(中关村的苹果手机为什么便宜)
  Iphone5概念机即将上市的消息早已不胫而走,这款概念机被认为是今年最值得期待的机王,但这并未减少Iphone4的市场需求。在中关村,Iphone4依然是稀缺物,一些卖场里,Iphone4竟...
日期:07-25
“断”了荣耀,又来一个星耀?华为欲改写规则,网友:放过穷人吧
都知道,荣耀曾经是华为的子品牌,但由于华为被美制裁,无法获得芯片,这就导致华为的手机业务几乎要面临“关门歇业”的绝境。在万念俱灰之际,华为做出了重要决定,和荣耀“割席”,脱离...
日期:01-31
付呗荣获银联“最佳合作伙伴”称号(蚂蚁合作银行)
  当前的支付产业,正处于移动支付转型和全面监管的全新时代,推动其创新无限、有序健康发展,并使之深度赋能商业,成为整个行业的共识。   作为中国支付领域的头部平台,中国银...
日期:05-26
徐雷卸任京东CEO后发新朋友圈:15个字耐人寻味「京东徐雷是谁」
快科技6月23日讯,今年5月11日京东发布公告,京东集团原CEO徐雷因个人原因提出退休申请,经集团董事会批准,尊重并同意徐雷退休申请。这距离去年4月徐雷接替刘强东出任集团CEO,仅仅...
日期:06-23
野生竹鼠视频「600多万年!云南发现巨型竹鼠化石:体形是现生竹鼠数倍」
10月31日消息,中国科学院昆明动物研究所最近有了新的发现,该所与哈佛大学、中国科学院古脊椎动物与古人类研究所合作,在云南昭通盆地水塘坝发现了一种距今约620万年至670万年的...
日期:10-31
世界!茂纳洛亚活火山或将喷发:当地居民已收到预警「茂纳凯亚火山」
世界上最大的活火山名为茂纳洛亚,位于美国夏威夷岛,该火山或将再次喷发。据海外媒体报道,隶属于美国地质调查局的夏威夷火山观测站表示,自上个月中旬以来,茂纳洛亚火山一直处于高...
日期:11-05
iPhone 15 Pro Max通话温度升47°C 业内分析:散热设计有问题
近日,有一位用户在使用iPhone 15 Pro Max进行通话时,发现手机背部温度升至42°C,甚至在后续测试中达到了47°C。这一异常数据引起了广泛关注。有用户直接表示,苹果手机连通话都...
日期:09-29
腾讯云发布全新三大AI底层平台,提供一站式智能化、数据化服务(腾讯云智能终端)
  7月9日,2021世界人工智能大会腾讯论坛在上海举办,腾讯云副总裁、腾讯优图实验室总经理吴运声发表了“人工智能的可持续发展之道”主题演讲,宣布全新推出腾讯云TI ONE、TI...
日期:07-07
网站CMS_SiteServer CMS提供优质网站技术解决方案
  1993,伊利诺斯大学美国国家超级计算机应用中心的学生马克.安德里森(Mark Andreesen)等人开发出了真正的浏览器“Mosaic”,后互联网开始得以爆炸性普及。在互联网高速发...
日期:07-26
极目云智(软探针)系统网络智能化创新产品,助力有线宽带质量提升
摘要中国移动研究院研发极目云智(软探针)系统及智能化新能力。该系列能力可与业界现有宽带质量保障系统融合,有效提升用户体验,助力有线宽带网络智能化转型升级。01“极目云智(软...
日期:11-30
微信元宇宙来了!「宇宙的微信号」
声明:本文来自于微信公众号 亿邦动力(ID:iebrun),文丨翟更章 编辑丨石航千 史婉嘉,授权转载发布。微信小程序正在内测XR框架。XR(AR/VR/MR)直译下来就是扩展现实,也是当下火热的元...
日期:12-23
苹果13发布股价下跌「iPhone 14系列让人购买欲望空前 苹果股价创四个月最大涨幅」
截至9月12日收盘,苹果股价上涨3.85%,创下今年5月27日以来的最大单日涨幅,而且自8月以来首次收于200日平均线以上。今年以来,纳斯达克100指数大跌了22%左右,而苹果股价仅累计下跌...
日期:09-15