您的位置:首页 > 互联网

支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate

发布时间:2024-06-08 17:18:10  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

苹果14出来后预计13会便宜多少

人类跳舞视频生成是一项引人注目且具有挑战性的可控视频合成任务,旨在根据输入的参考图像和目标姿势序列生成高质量逼真的连续视频。随着视频生成技术的快速发展,特别是生成模型的迭代演化,跳舞视频生成任务取得了前所未有的进展,并展示了广泛的应用潜力。

现有的方法可以大致分为两组。第一组通常基于生成对抗网络(GAN),其利用中间的姿势引导表示来扭曲参考外观,并通过之前扭曲的目标生成合理的视频帧。然而,基于生成对抗网络的方法通常存在训练不稳定和泛化能力差的问题,导致明显的伪影和帧间抖动。

第二组则使用扩散模型(Diffusion model)来合成逼真的视频。这些方法兼具稳定训练和强大迁移能力的优势,相较于基于 GAN 的方法表现更好,典型方法如 Disco、MagicAnimate、Animate Anyone、Champ 等。

尽管基于扩散模型的方法取得了显著进展,但现有的方法仍存在两个限制:一是需要额外的参考网络(ReferenceNet)来编码参考图像特征并将其与3D-UNet 的主干分支进行表观对齐,导致增加了训练难度和模型参数;二是它们通常采用时序 Transformer 来建模视频帧之间时序依赖关系,但 Transformer 的复杂度随生成的时间长度成二次方的计算关系,限制了生成视频的时序长度。典型方法只能生成24帧视频,限制了实际部署的可能性。尽管采用了时序重合的滑动窗口策略可以生成更长的视频,但团队作者发现这种方式容易导致片段重合连接处通常存在不流畅的转换和外貌不一致性的问题。

为了解决这些问题,来自华中科技大学、阿里巴巴、中国科学技术大学的研究团队提出了UniAnimate 框架,以实现高效且长时间的人类视频生成。

三星980 pcie4.0

  • 论文地址:https://arxiv.org/abs/2406.01188

  • 项目主页:https://unianimate.github.io/

方法简介

UniAnimate 框架首先将参考图像、姿势指导和噪声视频映射到特征空间中,然后利用统一的视频扩散模型(Unified Video Diffusion Model)同时处理参考图像与视频主干分支表观对齐和视频去噪任务,实现高效特征对齐和连贯的视频生成。

其次,研究团队还提出了一种统一的噪声输入,其支持随机噪声输入和基于第一帧的条件噪声输入,随机噪声输入可以配合参考图像和姿态序列生成一段视频,而基于第一帧的条件噪声输入(First Frame Conditioning)则以视频第一帧作为条件输入延续生成后续的视频。通过这种方式,推理时可以通过把前一个视频片段(segment)的最后一帧当作后一个片段的第一帧来进行生成,并以此类推在一个框架中实现长视频生成。

天猫国际发展

最后,为了进一步高效处理长序列,研究团队探索了基于状态空间模型(Mamba)的时间建模架构,作为原始的计算密集型时序 Transformer 的一种替代。实验发现基于时序 Mamba 的架构可以取得和时序 Transformer 类似的效果,但是需要的显存开销更小。

通过 UniAnimate 框架,用户可以生成高质量的时序连续人类跳舞视频。值得一提的是,通过多次使用 First Frame Conditioning 策略,可以生成持续一分钟的高清视频。与传统方法相比,UniAnimate 具有以下优势:

  • 无需额外的参考网络:UniAnimate 框架通过统一的视频扩散模型,消除了对额外参考网络的依赖,降低了训练难度和模型参数的数量。

  • 引入了参考图像的姿态图作为额外的参考条件,促进网络学习参考姿态和目标姿态之间的对应关系,实现良好的表观对齐。

  • 统一框架内生成长序列视频:通过增加统一的噪声输入,UniAnimate 能够在一个框架内生成长时间的视频,不再受到传统方法的时间限制。

  • 具备高度一致性:UniAnimate 框架通过迭代利用第一帧作为条件生成后续帧的策略,保证了生成视频的平滑过渡效果,使得视频在外观上更加一致和连贯。这一策略也使得用户可以生成多个视频片段,并选取生成结果好的片段的最后一帧作为下一个生成片段的第一帧,方便了用户与模型交互和按需调整生成结果。而利用之前时序重合的滑动窗口策略生成长视频,则无法进行分段选择,因为每一段视频在每一步扩散过程中都相互耦合。

以上这些特点使得 UniAnimate 框架在合成高质量、长时间的人类跳舞视频方面表现出色,为实现更广泛的应用提供了新的可能性。

生成结果示例

1. 基于合成图片进行跳舞视频生成。

2. 基于真实图片进行跳舞视频生成。

3. 基于粘土风格图片进行跳舞视频生成。

4. 马斯克跳舞。

5. Yann LeCun 跳舞。

6. 基于其他跨域图片进行跳舞视频生成。

7. 一分钟跳舞视频生成。

,时长01:05

获取原始 MP4视频和更多高清视频示例请参考论文的项目主页https://unianimate.github.io/。

实验对比分析

1. 和现有方法在 TikTok 数据集上的定量对比实验。

如上表所示,UniAnimate 方法在图片指标如 L1、PSNR、SSIM、LPIPS 上和视频指标 FVD 上都取得了最好的结果,说明了 UniAnimate 可以生成高保真的结果。

2. 和现有方法的定性对比实验。

从上述定性对比实验也可以看出,相比于 MagicAnimate、Animate Anyone, UniAnimate 方法可以生成更好的连续结果,没有出现明显的 artifacts,表明了 UniAnimate 的有效性。

3. 剥离实验。

从上表的数值结果可以看出,UniAnimate 中用到的参考姿态和统一视频扩散模型对性能提升起到了很关键的作用。

4. 长视频生成策略对比。

从上图可以看出之前常用的时序重合滑动窗口策略生成长视频容易导致不连续的过渡,研究团队认为这是因为不同窗口在时序重合部分去噪难度不一致,使得生成结果不同,而直接平均会导致有明显的变形或者扭曲等情况发生,并且这种不一致会进行错误传播。而本文利用的首帧视频延续生成方法则可以生成平滑的过渡。

更多的实验对比结果和分析可以参考原论文。

总而言之,UniAnimate 的示例结果表现和定量对比结果很不错,期待 UniAnimate 在各个领域的应用,如影视制作、虚拟现实和游戏产业等,为用户带来更为逼真、精彩的人类形象动画体验。


返回网站首页

本文评论
亮相MWC 2024:MediaTek掀起生成式“AI”风暴
亮相MWC 2024:MediaTek掀起生成式“AI”风暴 通信产业网|2024-02-26 22:16:17作者:党博文来源:通信产业网【通信产业网讯】(记者 党博文)2月26日,2024世界移动通信大会(MWC 2024)...
日期:02-27
"戴苹果头显逛街"视频成热门,数码大V:不应在公共场合戴这种东西
2月7日消息,上周,苹果正式推出了售价3500美元的虚拟现实头显Vision Pro,引起了网上热议。人们纷纷展示他们如何使用这款新型头显,讨论不休。这款头显让用户能够在现实环境中看到...
日期:02-07
节后朋友圈摄影大赛 用三星Galaxy Z Fold4轻松集赞朋友圈_三星手机摄影大赛获奖作品
每到五一长假结束,各类社交网络与朋友圈都会成为分享假期生活的秀场:各类美图、视频精彩纷呈,仿佛置身于一场亲朋好友间的“摄影大赛”。在人人都用手机记录生活的当下,如果想要...
日期:05-04
CNET员工成立工会,称使用AI对其工作和声誉造成威胁
5月19日 消息:CNET 的员工正在组建工会,他们将雇主使用人工智能列为一个关键原因。生成人工智能技术筹集了数十亿美元的资金并有可能颠覆整个行业,它已经对人类工作产生了非常...
日期:05-19
首批5G手机818上线,苏宁将开200家线下5G体验店_快看 | 苏宁818首家全数字化门店开业,首批5G手机上市
  提及当前科技圈最热门的话题,5G必然有一席之地。   6月6日,工业和信息化部正式向中国移动、中国联通、中国电信和中国广电发布了4张5G商用牌照,这也意味着我们正式迈进5...
日期:04-03
iPhone 16 系列曝光:屏幕越大视觉效果就越好_iphone手机16:9
现在什么牌子的电视盒子好用据可靠消息来源称,苹果即将推出的 iPhone 16 / Pro 系列手机将配备更大的屏幕。据 Ross Young 表示,iPhone 16 Pro 和 iPhone 16 Pro Max 将会拥有...
日期:11-30
渐凉的秋意之下 华为服务店给我注入了不一样的温暖
一直听说恩施利川是一个避暑胜地,趁着国庆假期,我特意从深圳来到了利川,暂时告别深圳繁忙的生活节奏,来领略一番利川的人文特色和优美风景。果然,百闻不如一见,利川的风景确实让我...
日期:10-16
中国联通“SIM卡硬钱包”上线了!
通信世界网消息(CWW)7月11日,中国联通在数字人民币APP上线“SIM卡硬钱包”产品,这是中国联通与中国银行合作,将数字人民币金融基础设施与信息技术基础设施相结合,实现了金融与通信...
日期:07-12
全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5,3秒读懂万字论文理解力接近人类
声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。【新智元导读】就在刚刚,GPT-4被从大模型铁王座上扯下来了!OpenAI最强竞对Anthropic发布的Claude3系列...
日期:03-05
刘庆峰:在代码生成与补齐方面讯飞星火已超越ChatGPT_科大讯飞刘庆峰最新演讲
通信世界网消息(CWW)8月15日,讯飞星火认知大模型V2.0正式发布。特斯拉总裁马斯克说阿里 智能汽车科大讯飞董事长刘庆峰表示,讯飞星火认知大模型V2.0对代码各项能力均有所提升。...
日期:08-16
AI抢影视博主饭碗?阅片无数的AI,开始批量推荐“电子榨菜”
声明:本文来自于微信公众号 头号AI玩家(ID:AIGCplayer),作者:阿虎,授权转载发布。吃饭五分钟,找剧两小时。很多时候饭菜凉了,下饭剧还没找到……谁没有过这样的经历:在视频平台上...
日期:11-10
十一部门开展“信号升格”行动 2025年重点场所网络深度覆盖
通信世界网消息(CWW)工业和信息化部等十一部门近日联合印发《关于开展“信号升格”专项行动的通知》。“信号升格”专项行动将通过通信网络基站建设优化,实现移动网络(4G、5G)信...
日期:01-04
“点读机女孩”视频被质疑是库存 高君雨账号已无MCN认证_高君雨个人资料
国内媒体纷纷报道,曾被大众熟知的“点读机女孩”高君雨,近期在其社交账号上发布了多条视频,内容主要记录了她治疗脑瘤的亲身经历。然而,这一举动却引发了网友的质疑。有网友指出...
日期:03-11
英特尔携手生态伙伴探索元宇宙医疗创新实践,助力医疗智能化高质量发展
通信世界网消息(CWW)2023年11月6日,在近日举办的2023中国国际进口博览会上,英特尔与复旦大学附属中山医院携手联影、中国电信、百度共同发布《“无界”智能虚拟元诊室前沿洞察》...
日期:11-07
谷歌2023年前将在日本开设数据中心「谷歌地区改成日本」
10月11日消息,据国外媒体报道,谷歌首席执行官(CEO)桑达尔·皮查伊(Sundar Pichai)表示,该公司将在2023年前在日本开设首个数据中心。谷歌表示,该数据中心将位于日本东京附近的千叶县...
日期:10-18
vivo首发天玑1100「vivo X100系列首发!天玑9300官宣:安卓第一5G Soc」
快科技10月24日消息,联发科宣布将于11月6日举行新品发布会,正式推出联发科天玑9300芯片。官方海报显示,天玑9300的Slogan是全大核时代来临”,表明天玑9300抛弃了小核心设计,全部...
日期:10-25
苹果手机来电铃声_苹果手机来电铃声响一声就变小了
一向备受用户欢迎,因其简洁清新的调子和浅显易懂的旋律而深受大众喜爱。苹果手机的来电铃声具有开机铃声、短信提示铃声、闹钟铃声等多种类型,让用户可以根据自己的需求选择相...
日期:05-29
VR游戏分岔点宣布完两轮共数千万元投资
讯 8月15日上午消息,上海分岔点网络科技有限公司宣布完成数千万元Pre-A轮融资。   本轮融资由红杉中国种子基金投资,资金将主要用于产品研发以及技术团队扩充。在此前半年,分...
日期:08-16
买五菱电动汽车国家补贴多少「即日起购买五菱新能源享至高10000元补贴-五菱汽车」
上汽通用五菱官宣限时钜惠购车福利活动,即日起至2023年5月31日,购买五菱新能源车型享至高10000元优惠补贴,包括现金优惠、金融贴息、丰富礼品。国产手机就是国产的吗2021国庆档...
日期:10-04
ai算力排行「全球AI创新指数排名:中美在第一梯队,算力、人才如何分布」
  作者/金叶子  经过60多年发展,人工智能领域呈现跨界融合、人际协同、群智开放、自主操控等新特征。作为反映国家人工智能创新水平的重要指标,今年人工智能创新指数有什...
日期:09-10