您的位置:首页 > 互联网

南大提出全新框架VividTalk 一张照片一段声音秒生超逼真视频

发布时间:2023-12-13 21:55:29  来源:互联网     背景:

要点:

三星手表充电底座

vivo手机远程控制软件

  • 南大等机构研究人员提出的通用框架,名为VividTalk,能通过一段音频和一张照片生成高质量、富有表现力的说话视频,实现口型和音频的无缝对齐。

  • 框架采用两阶段生成,第一阶段考虑面部运动和blendshape分布之间的映射,利用多分支Transformer网络建模音频上下文,第二阶段渲染内外表面的投影纹理,实现全面建模运动。

  • VividTalk在实验中展现出优越的生成质量和模型泛化性,支持多语言,能够生成具有丰富表情和自然头部姿势的口型同步头部说话视频。

12月13日 消息:近日,南大等机构的研究人员推出了一项引人注目的研究成果——VividTalk框架,其能够通过一段音频和一张照片实现令人惊叹的说话视频生成。这一通用框架采用了两阶段生成方法,首先通过考虑面部运动和blendshape分布之间的映射,利用多分支Transformer网络建模音频上下文,生成3D驱动的网格。

华为nova系列鸿蒙系统

16个看起来像上个世纪的物品

论文地址:https://arxiv.org/pdf/2312.01841.pdf

框架的第一阶段注重嘴唇运动和面部表情的生成,使用blendshape和顶点偏移作为中间表征,以提供全局粗略的面部表情运动和局部细粒度的嘴唇运动。为了更合理地学习刚性头部运动,研究人员巧妙地将问题转化为离散有限空间中的代码查询任务,并构建了可学习的头部姿势代码本。这一创新性的方法使得从音频到头部姿势的学习变得更加准确和高效。

第二阶段则在生成器中使用了双分支motionvae来建模2D密集运动,通过投影纹理表示在2D域中进行运动转换,提高了网络性能和生成视频的质量。VividTalk框架在实验中取得了显著的成果,能够生成具有表情丰富、自然头部姿势的口型同步视频。实验数据集的丰富性和优化的训练方法使得该框架在生成质量和模型泛化方面表现优越。

这一框架的推出代表了在语音合成领域的一次重要突破。VividTalk不仅支持多语言,而且在生成效果上也胜过了其他同类方法。这项研究成果将有望在虚拟人物、语音合成和视频制作等领域产生深远的影响。


返回网站首页

本文评论
神舟十五三名航天员正式进驻空间站 六人合影谈笑风生_神舟十二号将送3名航天员上空间站
神舟十五号载人飞船入轨后,于北京时间2022年11月30日5时42分,成功对接于空间站天和核心舱前向端口,整个对接过程历时约6.5小时。m2芯片加持apple推出新一代ipad pro根据现场直...
日期:12-01
Win10再见 更新将结束了!微软加速抛弃:20H2版正式停止 快升Win11_微软官方升级win11
快科技5月10日消息,对于微软来说,放弃Windws 10系统的时间早已确定,而2022年10月推出的Windows 10 22H2将是该操作系统的最后一个功能更新版本。按照微软的说法,所有版本的Windo...
日期:05-10
指控前雇员和Rivos公司窃取芯片机密-苹果维权获美国法院支持
 8 月 12 日消息,根据彭博社报道,美国加州地方法院近日裁定,苹果可以继续对 Rivos 公司提起诉讼。苹果公司认为,有充足的证据表明公司前雇员为 Rivos 公司窃取商业机密,而 Rivos...
日期:09-17
幻夜科技有限公司「幻霄科技概念片发布,AI沉浸式学习平台「线上学」带你探秘智境」
互联网快速发展以来,教育领域始终紧跟时代步伐不断升级,从互联网+教育到元宇宙+教育,再到AI+教育,每一个“+”前词语变化所代表的都是技术的进步和发展,为教育、培训行业注入了新...
日期:07-28
传微软内部也很震惊,提前几分钟才得知"奥特曼被开除"_winr奥特曼
11月18日消息,根据知情人士透露,OpenAI临时首席执行官米拉·穆拉蒂(Mira Murati)在周五的公司全体会议上告诉员工,尽管前首席执行官萨姆·奥特曼(Sam Altman)被突然解雇,但该公司与...
日期:11-18
英国科技大臣表示不打算设立全球AI监管机构_英国ai科技公司
划重点1. 英国科技大臣 Michelle Donelan 拒绝了设立全球人工智能监管机构的建议,强调英国计划将其AI安全峰会视为建立国际网络和框架的起点,以识别和管理新兴技术的风险。2....
日期:10-18
复爱合缘总裁庄海:不以结婚为目的的恋爱正在增加 婚恋网站也要求变
文 | 张俊     古老的婚恋行业正在迎来新的变化。   8月5日,独家报道了复爱合缘新一轮高管任命,原飞猪副总裁、民宿业务总经理庄海,被任命为复爱合缘总裁兼婚恋事业群总...
日期:08-16
高通将向华为出货5g芯片「高通恢复为华为提供5G芯片供应,华为5G手机真的回来了?」
通信世界网消息(CWW)日前,据相关消息称,高通恢复为华为提供5G芯片供应,华为下半年或将发布有5G服务的Meta60。今年以来,业界就有华为5G手机将于2023年下半年回归的传言,加之最近华...
日期:06-13
谁说年味越来越淡?年味专送带你“牛”转乾坤_都说年味越来越淡
  说起年味,大家或许都有着不同的记忆:   是跟着大人上年货市集,各种零食看得直流口水;   是“我想死你们了”和那首《难忘今宵》;   是那些年妈妈对孩子说的“谎言”...
日期:07-16
爱奇艺《青春有你》收官,新一代青年励志团体UNINE正式走向市场(青春有你UNINE)
  由爱奇艺打造的中国首档青年励志综艺《青春有你》4月6日正式迎来收官。经过历时长达3个多月的系统性训练和多轮公演角逐,最终由青春制作人助力选出的李汶翰、李振宁、姚...
日期:04-26
老匡:抖音、小红书、B站上,那些教人搞钱的视频,到底是真是假?
声明:本文来自于微信公众号 匡方(ID:kuangfang2012),作者:匡方,授权转载发布。相信各位一定在抖音、小红书、B站上,刷到过“教人赚钱”类短视频。例如《在B站抄书,4个月收入12万!...
日期:06-27
华为云计算基地_华为云与计算助力“新基建”高质量推进
  (来源:人民网记者 王宇鹏)   加速布局新型基础设施建设,正成为中国实现多重战略目标的关键之举。为科学把握“新基建”推进过程中所面临的统筹规划、风险防范、监管创...
日期:07-23
阿里、京东都着急了「2020京东和阿里」
声明:本文来自于微信公众号 十里村(ID:shilipxl),作者:村长住在十里村,授权转载发布。各位村民好,我是村长。2023年,电商行业发生了大震动!尤其是作为老牌玩家的阿里和京东,两家电商公...
日期:06-24
微软将AI聊天限制放宽到每天60次:上限将攀升至100次「ai聊天助手怎么开启」
2月22日消息,为了防止必应AI聊天机器人“越界”给出令人不安的答案,微软迅速采取措施,对其聊天长度加以限制。但短短几天后,该公司宣布将逐渐取消部分限制,并允许更长对话。美国...
日期:03-01
Stellantis计划推出售价低于2.5万欧元电动汽车_stellantis旗下汽车
8 月 5 日消息,据彭博社今日报道,全球第四大车企 Stellantis NV 正计划推出一款全新的廉价电动汽车,将与比亚迪和雷诺旗下达契亚 Spring(IT之家注:东风纳米 BOX 的海外换标车型)展...
日期:09-18
rtx2070算高端显卡「RTX 4090公版显卡与主机大小对比出炉:“身高”追平XSX」
随着显卡性能的提升,显卡的体积也在逐渐膨胀”,到了最新的RTX 4090,更是成为了目前系列体积最大的一张显卡。不过,仅说RTX 4090到底有多大也确实缺乏概念,与其他产品的对比显然会...
日期:10-08
2019年创响中国合肥高新区站暨合创汇年度盛典成功举办_合肥高新区城创公司
  12月10日下午,备受瞩目的“2019年创响中国合肥高新区站暨合创汇年度盛典”活动在合肥高新区成功举办。活动由合肥高新区管委会主办,36氪氪空间承办。活动当天,行业专家、...
日期:12-02
iPhone 15屏幕维修费用公布 无AppleCare+最高自费超3千_iphone屏幕维修保内价格
9月18日 消息:iPhone15系列手机已开始预订,苹果也在官网公布了最新一代iPhone的维修费用。数据显示,如果没有购买AppleCare+保险服务,iPhone15系列手机屏幕维修的自费费用最高...
日期:09-18
说谎真会“遭报应”吗?研究表明:是真的!_说谎话的因果报应
一个冷知识:在日常生活中,人们撒的谎其实远比自己意识到的多得多。童话故事里的匹诺曹会在说谎后鼻子变长,现实生活中,一个人谎话说多了,会怎样呢,会“遭到报应”吗?心理学家们在研...
日期:08-08
第三届未来网络发展大会在江宁隆重开幕(南京未来网络发展大会)
  5月22日,以“网络全球•决胜未来”为主题的第三届未来网络发展大会在南京市江宁区隆重开幕,来自中、美、加、英、法、德、澳、日、韩等国内外400多名知名院士、专家学者...
日期:03-13