您的位置:首页 > 互联网

重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse_重塑身体

发布时间:2023-09-04 17:13:18  来源:互联网     背景:

机器之心专栏

作者:MMLab@NTU

来自南洋理工大学和商汤科技的研究者联合提出了一种全新的文本驱动动作生成框架——ReMoDiffuse。

人体动作生成任务旨在生成逼真的人体动作序列,以满足娱乐、虚拟现实、机器人技术等领域的需求。传统的生成方法包括 3D 角色创建、关键帧动画和动作捕捉等步骤,其存在诸多限制,如耗时较长,需要专业技术知识,涉及昂贵的系统和软件,不同软硬件系统之间可能存在兼容性问题等。随着深度学习的发展,人们开始尝试使用生成模型来实现人体动作序列的自动生成,例如通过输入文本描述,要求模型生成与文本要求相匹配的动作序列。随着扩散模型被引入这个领域,生成动作与给定文本的一致性不断提高。

然而,生成动作的自然程度离使用需求仍有很大差距。为了进一步提升人体动作生成算法的能力,本文在 MotionDiffuse [1] 的基础上提出了 ReMoDiffuse 算法(图 1),通过利用检索策略,找到高相关性的参考样本,提供细粒度的参考特征,从而生成更高质量的动作序列。



  • 论文链接:https://arxiv.org/pdf/2304.01116.pdf
  • GitHub:https://github.com/mingyuan-zhang/ReMoDiffuse
  • 项目主页:https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html

通过巧妙地将扩散模型和创新的检索策略融合,ReMoDiffuse 为文本指导的人体动作生成注入了新的生命力。经过精心构思的模型结构,ReMoDiffuse 不仅能够创造出丰富多样、真实度高的动作序列,还能有效地满足各种长度和多粒度的动作需求。实验证明,ReMoDiffuse 在动作生成领域的多个关键指标上表现出色,显著地超越了现有算法。



图 1. ReMoDiffuse 概览

方法介绍

ReMoDiffuse 主要由两个阶段组成:检索和扩散。在检索阶段,ReMoDiffuse 使用混合检索技术,基于用户输入文本以及预期动作序列长度,从外部的多模态数据库中检索出信息丰富的样本,为动作生成提供强有力的指导。在扩散阶段,ReMoDiffuse 利用检索阶段检索到的信息,通过高效的模型结构,生成与用户输入语义一致的运动序列。

重塑身体

为了确保高效的检索,ReMoDiffuse 为检索阶段精心设计了以下数据流(图 2):





图 2:ReMoDiffuse 的检索阶段

锤子坚果r1上市时间

扩散过程(图3.c)由正向过程和逆向过程两个部分组成。在正向过程中,ReMoDiffuse 逐步将高斯噪声添加到原始动作数据中,并最终将其转化为随机噪声。逆向过程专注于除去噪声并生成逼真的动作样本。从一个随机高斯噪声开始,ReMoDiffuse 在逆向过程中的每一步都使用语义调制模块(SMT)(图3.a)来估测真实分布,并根据条件信号来逐步去除噪声。这里 SMT 中的 SMA 模块将会将所有的条件信息融入到生成的序列特征中,是本文提出的核心模块。



图 3:ReMoDiffuse 的扩散阶段



3.V 向量提供了动作生成所需的实际特征。类似 K 向量,这里 V 向量也综合考虑了检索样本、用户输入以及当前动作序列。考虑到检索样本的文本描述特征与生成的动作之间没有直接关联,因此在计算 V 向量时我们选择不使用这一特征,以避免不必要的信息干扰。

结合 Efficient Attention 的全局注意力模板机制,SMA 层利用来自检索样本的辅助信息、用户文本的语义信息以及待去噪序列的特征信息,建立起一系列综合性的全局模板,使得所有条件信息能够被待生成序列充分吸收。

实验及结果

我们在两个数据集 HumanML3D [4] 和 KIT-ML [5] 上评估了 ReMoDiffuse。在与文本的一致性与动作质量两个角度上,实验结果(表 1、2)展示了我们提出的 ReMoDiffuse 框架的强大性能和优势。



表 1. 不同方法在 HumanML3D 测试集上的表现



表 2. 不同方法在 KIT-ML 测试集上的表现

以下是一些能定性展示 ReMoDiffuse 的强大性能的示例(图 4)。与之前的方法相比,例如,在给定文本 “一个人在圆圈里跳跃” 时,只有 ReMoDiffuse 能够准确捕捉到 “跳跃” 动作和 “圆圈” 路径。这表明 ReMoDiffuse 能够有效地捕捉文本细节,并将内容与给定的运动持续时间对齐。



图 4. ReMoDiffuse 生成的动作序列与其他方法生成的动作序列的比较

我们对 Guo 等人的方法 [4]、MotionDiffuse [1]、MDM [6] 以及 ReMoDiffuse 所生成的相应动作序列进行了可视化展示,并以问卷形式收集测试参与者的意见。结果的分布情况如图 5 所示。从结果中可以清晰地看出,在大多数情况下,参与测试者认为我们的方法 —— 即 ReMoDiffuse 所生成的动作序列在四个算法中最贴合所给的文本描述,也最自然流畅。



图 5:用户调研的结果分布

引用

[1] Mingyuan Zhang, Zhongang Cai, Liang Pan, Fangzhou Hong, Xinying Guo, Lei Yang, and Ziwei Liu. Motiondiffuse: Text-driven human motion generation with diffusion model. arXiv preprint arXiv:2208.15001, 2022.

[2] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020, 2021.

[3] Zhuoran Shen, Mingyuan Zhang, Haiyu Zhao, Shuai Yi, and Hongsheng Li. Efficient attention: Attention with linear complexities. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 3531–3539, 2021.

[4] Chuan Guo, Shihao Zou, Xinxin Zuo, Sen Wang, Wei Ji, Xingyu Li, and Li Cheng. Generating diverse and natural 3d human motions from text. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5152–5161, 2022.

[5] Matthias Plappert, Christian Mandery, and Tamim Asfour. The kit motion-language dataset. Big data, 4 (4):236–252, 2016.

[6] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or, and Amit H Bermano. Human motion diffusion model. In The Eleventh International Conference on Learning Representations, 2022.


返回网站首页

本文评论
特斯拉已暂停在德国工厂的电池生产 或至少推迟到2024年「特斯拉电池工厂产能」
10月15日消息:据德国《商报》援引专家消息称,特斯拉由于技术问题,已经暂停了在德国柏林郊外格林海德工厂的电池生产计划。微软surfacepro和book目前该地只保留了电极方面的研...
日期:10-18
奈雪的茶标「“奈雪的茶”悄悄更换LOGO:开始去掉日本元素」
奈雪の茶、元気森林、伏见桃山乍一看这些牌子,是不是都有一种日本产品的感觉?其实,它们都是百分之百的本土牌子,只是把自己包装成了伪日式”而已。近日,奈雪的茶悄悄然更换品牌的...
日期:12-02
羊了个羊没有第三关 官方回应难的原因:不想给大家太大压力「羊不找羊怎么办」
2022年,《羊了个羊》成为现象级游戏,至今还有不少人在玩,不过这个游戏很奇怪,统共只有两关。近日,羊了个羊”创始人张佳旭带领主创团队在直播中和玩家见面,据介绍,羊了个羊”的难度...
日期:01-17
Abacus AI 推出开放式上下文大语言模型Long Context
8月4日 消息:Abacus.AI LLM Context Expansion 是一款能够扩展语境长度的工具,可以帮助用户扩展模型的语境长度,提高模型对长文本的处理能力。该工具基于 Abacus.AI 的 LLM(Lan...
日期:08-04
字节跳动宣布推出 BVC1S 编解码器,屏幕内容视频编码提速 2.87 倍
  10 月 14 日消息,今日,字节跳动宣布推出屏幕内容视频编解码器 BVC1S。   据介绍,在远程协作、虚拟桌面、云游戏等应用的编码场景下,BVC1S 相比业界主流的 X265 开源编码...
日期:07-17
淘宝商城双113D地画现身上海 创吉尼斯纪录
  距淘宝商城双11网购狂欢节2天的时候,线下先狂欢起来。 11月9日,一幅名为“Tmall 狂欢城”的巨幅3D地画现身浦东东方明珠电视塔下揭幕。这幅以淘宝商城“双11网购狂欢节...
日期:07-24
女子音乐节蹦丢老公 急中生智投屏寻人
原来,投屏还能这么用!据白鹿视频分享,5月21日在河南焦作的云台上音乐节,现场热闹非凡,人头攒动。不料一对夫妻意外走散,因为现场嘈杂,加之山中信号差,二人联系不上。焦急的妻子选择...
日期:05-23
清华大学3d全景展示「清华系面壁智能给大模型接入16000+真实API,开源ToolLLM效果直逼ChatGPT」
声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。【新智元导读】ChatGPT能力解禁,还是加入插件功能后,性能得到了强化。所有大模型皆是如此。面壁智能给...
日期:08-08
心系抗疫!梓濠供应链捐赠物资送达湖北5家医院
  2020年2月12日,为支援湖北省的抗疫工作,梓濠供应链通过紧急协调采购,筹集到5000只符合国家标准的KN95口罩,定点捐赠给湖北省孝感、汉川各地的人民医院。   目前,此批捐赠...
日期:11-17
腾讯三季度收入1401亿元,净利润399亿元同比增1%_「腾讯三季度营收」
11月16日消息,腾讯控股(00700)发布2022年第三季度业绩。报告显示,腾讯第三季度营收1400.93亿元,同比减少2%,环比增加5%。毛利619.83亿元,同比减少1%,环比增加7%;公司权益持有人应占...
日期:11-27
工信部首个不兼容条例推出在即 360强卸金山毒霸败诉
  5月11日消息,北京市第一中级人民法院今日公开宣判,360诋毁并强行卸载金山网盾构成不正当竞争,被判赔偿30万元,作为国内互联网首例不兼容案,该宣判对行业的意义重大,此案的判...
日期:07-27
App 安装包越来越大!Spotify 宣布开源其 App 分析工具,可帮助解决这一难题
  2022 年的今天,手机 App 的安装包似乎越来越大了。为了解决这个问题,Spotify 宣布开源其 App 分析工具 Ruler。   据介绍,Ruler 是一个 App 的分析工具。它可以模拟谷...
日期:07-17
马斯克专访:我是个受虐狂 生500个孩子可能有点奇怪_马斯克采访哭了
凤凰网科技讯 北京时间10月8日消息,特斯拉公司经历了艰难的一周,它的第三季度汽车交付量没有达到外界预期,其CEO埃隆马斯克(Elon Musk)还在“惹事生非”,不但与推特打官司还在发...
日期:10-20
邮箱附件太大发不出去怎么办_附件太大上传不了?88完美邮箱帮你轻松搞定
  2020年8月8日,完美世界控股集团发布全新互联网商务品牌“88”,并上线新一代中国个人免费邮箱——88完美邮箱(www.88.com)。   作为新一代个人免费邮箱,88完美邮箱支...
日期:07-16
网易港股开跌近5% 百度、京东跌超2%_网易今日股价涨
查看最新行情   讯 8月19日上午消息,恒生指数开盘跌0.54%,恒生科技指数跌0.88%。网易跌近5%,此前公告称第二季度营收环比下滑1.7%,网易游戏及相关增值服务...
日期:08-19
B站将用播放分钟数替代播放次数 网友力挺:利好长视频「b站几十秒的播放时间有收益吗」
快科技6月27日消息,相信很多人在视频网站观看视频时,在相同内容的前提下会优先观看视频播放次数多的作品,但如此一来,长视频作者就比较吃亏了,毕竟视频越短越占优势,换上个吸引眼...
日期:06-27
汽车因缺芯减产450万辆_AFS:缺芯已致 2022 年汽车产量缩水超 52 万辆,一周缩减量增四成
  权威的预测机构 AutoForecast Solutions(AFS)最新报告指出,2022 年以来,缺芯已导致全球汽车产量缩减约 527,400,缩减量较该机构一周前预计的 370,500 辆增长了 42.4%。...
日期:07-17
301医院挂号新渠道,支付宝可挂北京近200家公立医院号源「北京301医院用什么软件挂号」
4月23日 消息:北京市民挂号就医又有新方式。即日起,北京近200家公立医院开通支付宝挂号预约服务,用户在支付宝App首页搜索或直接点击“医疗健康”,进入频道选择“挂号就诊”,即...
日期:04-23
科技创新ceo「科技高管压力有多大?借酒浇愁、吃药止痛」
凤凰网科技讯 北京时间7月8日消息,对于许多想要踏入科技界的人来说,这个行业节奏快、创新多,要是再能当上个高管那就更完美了。但是,在这光鲜亮丽的外表背后,不少高管都承受了巨...
日期:07-08
DXO拍照世界第一!华为P60 Pro马来西亚首销:用户排长队买_2022年华为p60pro
快科技5月21日消息,日前,华为手机官方宣布,华为P60 Pro在马来西亚开启首销,众多消费者开售第一时间到线下门店购买。从官方晒出的现场图来看,当地多家华为门店都有消费者排长队等...
日期:05-21