您的位置:首页 > 互联网

霉霉开口唱碧昂丝的歌,又是AI!口型不出戏,五官姿态也自然,复旦百度等出品|GitHub揽星1k+

发布时间:2024-06-18 15:36:11  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:西风,授权转载发布。

一张人像、一段音频参考,就能让霉霉在你面前唱碧昂丝的《Halo》。

一种名为Hallo的研究火了,GitHub已揽星1k+。

话不多说,来看更多效果:

不论是说话还是唱歌,都能和各种风格的人像相匹配。从口型到眉毛眼睛动作,各种五官细节都很自然。

单独拎出不同动作强度的比较,动作幅度大也能驾驭:

单独调整嘴唇运动幅度,表现是这样婶儿的:

有不少网友看过效果后,直呼这是目前最好的开源口型同步视频生成:

这项工作由来自复旦大学、百度、苏黎世联邦理工学院和南京大学的研究人员共同完成。

团队提出了分层的音频驱动视觉合成模块,将人脸划分为嘴唇、表情和姿态三个区域,分别学习它们与音频的对齐关系,再通过自适应加权将这三个注意力模块的输出融合在一起,由此可以更精细地建模音视频同步。

Hallo长啥样?

如前文所述,Hallo通过使用参考图像、音频序列以及可选的视觉合成权重,结合基于分层音频驱动视觉合成方法的扩散模型来实现。

整体架构是这样婶儿的:

参考图像经过一个ReferenceNet编码全局视觉特征;人脸编码器提取身份相关的特征;音频编码器将输入语音转换为与运动相关的特征表示;分层音频驱动视觉合成模块用于在唇部、表情、姿态三个层次建立音视频的关联;最后通过扩散模型中的UNet完成去噪,生成视频帧。

  • 扩散模型主干网络(Diffusion Backbone)

采用Stable Diffusion1.5作为基础架构,包括三个主要部分:VQ-VAE编码器、基于UNet的去噪模型、条件编码模块。与传统的文本驱动扩散模型不同,Hallo去掉了文本条件,转而使用音频特征作为主要的运动控制条件。

  • 参考图像编码器(ReferenceNet)

ReferenceNet用于从参考图像中提取全局视觉特征,指导视频生成过程的外观和纹理。结构与扩散模型的UNet解码器共享相同的层数和特征图尺度,便于在去噪过程中融合参考图像特征。在模型训练阶段,视频片段的第一帧作为参考图像。

  • 时序对齐模块(Temporal Alignment)

Temporal Alignment用于建模连续视频帧之间的时间依赖关系,保证生成视频的时序连贯性。从前一推理步骤中选取一个子集(例如2帧)作为运动参考帧,将其与当前步骤的latent noise在时间维度上拼接,通过自注意力机制建模帧间的关联和变化。

此外,分层音频驱动视觉合成方法是整个网络架构的核心部分。

其中人脸编码器,使用预训练的人脸识别模型,直接从参考图像提取高维人脸特征向量;音频编码器使用wav2vec模型提取音频特征,并通过多层感知机映射到运动特征空间,由此可以将语音转换为与面部运动相关的特征表示,作为视频生成的条件。

之后再将音频特征分别与唇部、表情、姿态区域的视觉特征做交叉注意力,得到三个对齐后的特征表示,再通过自适应加权融合为最终的条件表示。

该方法还可以通过调节不同区域注意力模块的权重,来控制生成视频在表情和姿态上的丰富程度,可适应不同的人物面部特征。

Hallo表现如何?

之后研究团队将Hallo与SadTalker、DreamTalk、Audio2Head、AniPortrait等SOTA方法进行定量和定性比较。

用HDTF和Bilibili、Youtube等来源的数据构建了一个大规模人像视频数据集,经过清洗后用于训练。

评估指标方面,采用FID、FVD评估生成视频的真实性,Sync-C、Sync-D评估唇形同步性,E-FID评估生成人脸的保真度。

TicPods Free Pro蓝牙耳机

定量评估方面,在HDTF数据集上,Hallo在多个指标上表现最优:

在增强唇部同步的同时,Hallo保持了高保真视觉生成和时间一致性:

在CelebV数据集上,Hallo展示了最低的FID和FVD以及最高Sync-C:

可视化比较如下:

在自建Wild数据集上,Hallo同样表现突出:

针对不同数据集的定性比较结果如下。

Hallo展示了对不同风格人像的驱动生成能力,体现了该方法的泛化和鲁棒性:

同时展示了对不同音频的响应能力,能够生成与音频内容契合的高保真视频:

与其它方法对比,Hallo展示了更丰富自然的表情和头部运动:

通过特定人物数据微调,展示了该方法捕获人物特征、个性化生成的能力。

618活动买什么最划算

最后研究人员还进行了消融实验,并总结了该方法的局限性,比如在快速运动场景下时序一致性还有待提高,推理过程计算效率有待优化等。

此外,经作者介绍,目前Hallo仅支持固定尺寸的人像输入。

且该方法目前也不能实现实时生成。

针对这项研究,也有网友提出Deepfake隐患,对此你怎么看?

参考链接:

[1]https://fudan-generative-vision.github.io/hallo/#/

[2]https://github.com/fudan-generative-vision/hallo

[3]https://x.com/JoeSiyuZhu/status/1801780534022181057

[4]https://x.com/HalimAlrasihi/status/1802152918432334028

—完—

光刻胶生产商


返回网站首页

本文评论
苹果在印度销量「报告:2025财年苹果 iPhone 印度产能占比 18%、销量占比 5%」
IT之家 6 月 21 日消息,根据美国银行(Bank of America)公布的分析报告,预计在 2025 财年,印度 iPhone 产量占比至少超过 18%,在印度市场的销量占比预估会上升到 5% 以上。苹果和安...
日期:06-21
Runway官宣下场通用世界模型!解决视频AI最大难题,竟靠AI模拟世界?
新智元报道编辑:编辑部【新智元导读】Runway突然发布公告,宣称要开发通用世界模型,解决AI视频最大难题,未来要用AI模拟世界。最近AI视频赛道的Pika 1.0大火,两位华人创始人团队半...
日期:12-12
泰尔实验室专家解读 三星Galaxy S21 5G系列屏幕面面观(三星 galaxy s21 5g测评)
  智能手机已经是现代社会极其重要的个人终端设备,并深入到人们生活中的方方面面。屏幕作为智能手机与用户最直接的交互介质之一,也越来越被消费者所重视。有数据显示,人均...
日期:07-16
谷歌前CEO:人工智能会给人类带来“生存风险”「谷歌人工智能重大突破」
5月25日消息,当地时间周三谷歌前首席执行官埃里克·施密特(Eric Schmidt)警告称,人工智能可能会导致很多人“受到伤害或者死亡”(harmed or killed),给人类带来“生存风险”,政府需...
日期:05-25
b站游戏收入占比_游戏营收占比再度缩减,B站的未来靠什么?
  年轻人文化社区哔哩哔哩(以下简称“B站”)交出了第三季度的业绩,其营收高速增长,达人民币18.590亿元,与去年同期相比增长幅度达72%,而亏损幅度也同比扩大。   以不同业务...
日期:12-11
微博给力2010星光大典 微博式生存流行娱乐圈_微博星耀盛典
  腾讯网第五届星光大典落幕,除了赵雅芝、甄子丹、冯小刚等星光熠熠的明星集体亮相外,微博也成为此次娱乐圈年度盘点盛典的主角。据悉,本届星光大典与腾讯微博全方位融入,短...
日期:07-25
小红星是否值得投入?当平台众多的时候,小红星可以跟踪导流天猫的流量吗?
声明:本文来自于微信公众号 楠开口(ID:nnvoice),作者:Sally 楠,授权转载发布。小红书平台正在一步步地占据我们的生活,经常能够在等电梯的时候、坐地铁的时候,看见越来越多的人在逛小...
日期:07-15
华为光纤猫官网商城「华为光纤猫」
是华为技术有限公司生产的一种用于光纤接入网络(FTTH)的设备,主要用于将光纤接入宽带网络,提供高速稳定的网络连接服务。下面将从品牌、性能和使用等角度详细介绍。一、品牌华为...
日期:05-28
12306兑换高铁票需要多少积分「12306回应免费坐高铁:兑换车次有限制,积分需在有效期内兑换」
3月28日 消息:今日,#免费坐高铁#登上微博热搜。据悉,用户登陆12306应用程序,注册会员可以积分,积分为5倍的车票价格数字,而100积分价值1元,通过积分兑换可以免费乘坐高铁。经常做...
日期:03-28
女子称发现公司发假月饼后被开除:给了N 1的赔偿_老板卖假月饼员工会怎样
9月27日消息,据媒体报道,江苏苏州一位女子吃公司发的美心月饼,竟吃出一根头发,准备打电话投诉,却发现包装上没有客服电话,扫包装上的二维码也扫不出内容,询问公司人事却被指事多。...
日期:09-28
英伟达2018年市值「从1万亿到2万亿只用了8个月!英伟达市值已突破2万亿美元」
2月23日 消息:英伟达在美股盘前交易中涨幅超过2%,股价冲破800美元大关,市值更是跃升至2万亿美元。这一里程碑式的增长仅用时八个月,打破了微软2年零六个月和苹果约两年的记录。...
日期:02-23
堵在路上12个小时:狗子都晕车晕到怀疑人生
双节期间,各地人流、车流涌动,高铁挤成地铁,高速变成停车场,各种拥堵不但让人无法忍受,就连狗狗们都崩溃了。根据网友们发布的视频,堵在高速路上的时候,有的狗狗满脸疲惫、神情呆滞...
日期:10-01
八宝粥成小米14 Ultra镜头盖后 飞机杯托完美适配OPPO Find X7
快科技3月18日消息,如今手机的镜头是越做越大,给消费者第一眼的感觉,就是这款手机的拍照一定非常的牛。混动车用充电不近日银鹭八宝粥罐盖成小米14 Ultra配件的发现引起大家关...
日期:03-18
平安车险稳健发展,持续提升自身核心竞争力_平安车险优势
  面对市场及客户需求的复杂变化,平安车险坚持“保险姓保”的经营理念,始终追求高质量发展,在业务稳健发展的同时,保持良好的业务品质和价值,呈现出健康优质发展的良好态势。...
日期:07-16
iPhone 13立减800 比双十一便宜 到手4388起「iphone13双十一会降价吗」
10月7日iPhone 14 Plus首销当日就立减400多元破发,而目前外观、性能等方面iPhone 13更加合适,iPhone 13还和iPhone 14用的都是相同的A15芯片,但iPhone 13立减800元,到手4388元起...
日期:10-24
Keep发布体感运动主机“Keep Station” 推动健身智能化趋势_keep健身装备怎么样
3月27日,运动科技平台 Keep 召开2023春响“智无止境·装备你的主场Ⅲ”新品发布会。发布会上,Keep推出了全新智能硬件体感运动主机 Keep Station 与划船机“A1”。Keep Statio...
日期:09-18
7年前任正非说物美价廉的东西都靠不住,现在各大手机厂商都做高端了,是不是验证了
怎么看待任正非:物美价廉的东西都靠不住?最近华为P9发布之后,多家媒体发文章说华为手机超越了苹果,并指出任正非在二月份的巴塞罗那通信展,「物美价廉的东西都靠不住」的言论来...
日期:08-21
惠普webOS操作系统平板电脑或于第三季推出_惠普windows平板
  据国外媒体报道,微软曾经宣称惠普的Slate平板电脑将采用微软的Windows 7操作系统。现在,有报道称惠普Slate平板电脑正在重新设计之中,以便成为一种基于Palm webOS操作系统...
日期:07-29
腾讯最大股东也扛不住了!Naspers宣布将裁员30%_naspers 股东
近日,腾讯集团最大股东,荷兰科技投资公司 Prosus及其南非母公司 Naspers (南非报业集团)宣布将裁员30%。我们将适应宏观环境的变化。一段时间以来,我们一直在努力改善成本结构”,P...
日期:01-27
初始投资1300亿卢比,塔塔集团将建立印度首座锂离子电池超级工厂
6 月 4 日消息,印度古吉拉特邦政府宣布,印度实业巨头塔塔集团与该邦签署协议,将建立该国首座锂离子电池超级工厂。骁龙7发布会完整版联想总经理杨元庆公示文件显示,当地时间周五...
日期:09-25