您的位置:首页 > 互联网

GPT-4+物理引擎加持扩散模型,生成视频逼真、连贯、合理

发布时间:2023-11-27 16:47:43  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

扩散模型的出现推动了文本生成视频技术的发展,但这类方法的计算成本通常不菲,并且往往难以制作连贯的物体运动视频。

为了解决这些问题,来自中国科学院深圳先进技术研究院、中国科学院大学和 VIVO AI Lab 的研究者联合提出了一个无需训练的文本生成视频新框架 ——GPT4Motion。GPT4Motion 结合了 GPT 等大型语言模型的规划能力、Blender 软件提供的物理模拟能力,以及扩散模型的文生图能力,旨在大幅提升视频合成的质量。

  • 项目链接:https://gpt4motion.github.io/

  • 论文链接:https://arxiv.org/pdf/2311.12631.pdf

  • 代码链接:https://github.com/jiaxilv/GPT4Motion

具体来说,GPT4Motion 使用 GPT-4基于用户输入的文本 prompt 生成 Blender 脚本,利用 Blender 内置的物理引擎来制作基本的场景组件,并封装成跨帧的连续运动,然后再将这些组件输入到扩散模型中,生成与文本 prompt 对齐的视频。

实验结果表明,GPT4Motion 可以在保持运动一致性和实体一致性的前提下高效生成高质量视频。值得注意的是,GPT4Motion 使用了物理引擎,这让其生成的视频更具真实性。GPT4Motion 为文本生成视频提供了新的见解。

我们先来看一下 GPT4Motion 的生成效果,例如输入文本 prompt:一件白 T 恤在微风中飘动、一件白 T 恤在风中飘动、一件白 T 恤在大风中飘动,风的强度不同,GPT4Motion 生成的视频中白 T 恤的飘动幅度就不同:

在液体流动形态方面,GPT4Motion 生成的视频也能够很好地表现出来:

geforce rtx 3090ti

联想小新2021pro

篮球从空中旋转着落下:

方法介绍

该研究的目标是根据使用者对一些基本物理运动场景的 prompt,生成一个符合物理特性的视频。物理特性通常与物体的材料有关。研究者的重点在于模拟日常生活中常见的三种物体材料:1)刚性物体,在受力时能保持形状不发生变化;2)布料,其特点是柔软且易飘动;3)液体,表现出连续和可变形的运动。

此外,研究者还特别关注这些材料的几种典型运动模式,包括碰撞(物体之间的直接撞击)、风效应(气流引起的运动)和流动(连续且朝着一个方向移动)。模拟这些物理场景通常需要经典力学、流体力学和其他物理知识。目前专注于文本生成视频的扩散模型很难通过训练获取这些复杂的物理知识,因此无法制作出符合物理特性的视频。

GPT4Motion 的优势在于:确保生成的视频不仅与用户输入的 prompt 一致,而且在物理上也是正确的。GPT-4的语义理解和代码生成能力可将用户 prompt 转化为 Blender 的 Python 脚本,该脚本可以驱动 Blender 的内置物理引擎来模拟相应的物理场景。并且,该研究还采用 ControlNet,将 Blender 模拟的动态结果作为输入,指导扩散模型逐帧生成视频。

通过 GPT-4触发 Blender 完成模拟

研究者观察到,虽然 GPT-4对 Blender 的 Python API 有一定的了解,但它根据用户 prompt 生成 Blender 的 Python 脚本的能力仍然有所欠缺。一方面,要求 GPT-4直接在 Blender 中创建哪怕是一个简单的3D 模型(如篮球)似乎都是一项艰巨的任务。另一方面,由于 Blender 的 Python API 资源较少且 API 版本更新较快,GPT-4很容易误用某些功能或因版本差异而出错。为了解决这些问题,该研究提出了以下方案:

  • 使用外部3D 模型

  • 封装 Blender 函数

  • 将用户 prompt 转化为物理特性

  • 图3显示了该研究为 GPT-4设计的通用 prompt 模板。它包括封装的 Blender 函数、外部工具和用户指令。研究者在模板中定义了虚拟世界的尺寸标准,并提供了有关摄像机位置和视角的信息。这些信息有助于 GPT-4更好地理解三维空间的布局。之后基于用户输入的 prompt 生成相应的指令,引导 GPT-4生成相应的 Blender Python 脚本。最后,通过该脚本,Blender 渲染出物体的边缘和深度,并以图像序列的形式输出。

    生成符合物理规律的视频

    该研究的目标是根据用户 prompt 和 Blender 提供的相应物理运动条件生成文字和视频内容一致,并且视觉效果逼真的视频。该研究采用扩散模型 XL(SDXL),一个扩散模型的升级版本,来完成生成任务,并且对 SDXL 做了以下修改:

  • 物理运动约束

  • 时间一致性约束

  • 实验结果

    控制物理特性

    篮球的下落和碰撞。图4展示了 GPT4Motion 在三种 prompt 下生成的篮球运动视频。在图4(左)中,篮球在旋转时保持了高度逼真的纹理,并准确复制了与地面碰撞后的弹跳行为。图4(中)表明,此方法可以精确控制篮球的数量,并有效生成多个篮球落地时发生的碰撞和弹跳。令人惊喜的是,如图4(右图)所示,当用户要求将篮球抛向摄像机时,GPT-4会根据生成脚本中篮球的下落时间计算出必要的初速度,从而实现逼真的视觉效果。这表明,GPT4Motion 可以与 GPT-4所掌握的物理知识相结合,从而控制生成的视频内容。

    在风中飘动的布料。图5和图6验证了 GPT4Motion 在生成在风力影响下运动的布匹的能力。利用现有的物理引擎进行模拟,GPT4Motion 可生成不同风力下布的波动和波浪。在图5展示了一面飘动旗帜的生成结果。在不同风力下,旗帜呈现出复杂的波纹和波浪图案。图6显示了不规则布料物体 —— T 恤,在不同风力下的运动情况。受织物弹性和重量等物理特性的影响,T 恤发生了抖动和扭曲,并出现了明显的褶皱变化。

    水倒入马克杯。图7展示了三段将不同粘度的水倒入马克杯的视频。当粘度较低时,流动的水与杯子中的水碰撞融合,在表面形成复杂的湍流。随着粘度的增加,水流变得缓慢,液体开始粘在一起。

    与基线方法对比

    图1展示了 GPT4Motion 与其他基线方法的直观对比。很明显,基线的结果与用户的 prompt 不符。DirecT2V 和 Text2Video-Zero 在纹理逼真度和动作一致性方面存在缺陷,而 AnimateDiff 和 ModelScope 虽然提高了视频的流畅度,但在纹理一致性和动作逼真度方面还有提升空间。与这些方法相比,GPT4Motion 可以在篮球下落和与地板碰撞后的弹跳过程中生成平滑的纹理变化,看起来更加逼真。

    如图8(第一行)所示,AnimateDiff 和 Text2Video-Zero 生成的视频在旗帜上出现了伪影 / 扭曲,而 ModelScope 和 DirecT2V 则无法平滑地生成旗帜在风中飘动的渐变。但是,如图5中间所示,GPT4Motion 生成的视频可以显示出旗帜在重力和风力作用下皱纹和波纹的连续变化。

    如图8(第2行)所示,所有基线的结果都与用户提示不符。虽然 AnimateDiff 和 ModelScope 的视频反映了水流的变化,但它们无法捕捉到水倒入杯子的物理效果。而由 Text2VideoZero 和 DirecT2V 生成的视频则创造了一个不断抖动的杯子。相比之下,如图7(左)所示,GPT4Motion 生成的视频准确地描述了水流与马克杯碰撞时的激荡,效果更加逼真。

    感兴趣的读者可以阅读论文原文,了解更多研究内容。


    返回网站首页

    本文评论
    “下周回国”无望 贾跃亭持有乐视股票拍卖:5毛钱一股_贾跃亭还持有多少乐视股份
    快科技7月24日消息,从阿里拍卖获悉,近日,又有一批贾跃亭持有的乐视网信息技术(北京)股份有限公司(股票代码:400084)的股票被挂上了拍卖。据悉,西安铁路运输中级法院将于7月28日10时至...
    日期:07-24
    美联邦航空管理局:最快下月向SpaceX“星舰”授予发射许可证_美国联邦宇航局
    9月13日,美国联邦航空管理局(FAA)代理局长特罗腾伯格(Polly Trottenberg)表示,可能最快下个月向SpaceX公司的超重型火箭“星舰”提前颁发发射许可证。在发射前,SpaceX还需获得美国...
    日期:09-14
    国家电网:应对用电高峰 试点推行电动汽车错峰充电(新能源车国家电网充电)
    高温天气影响下,多个省份的用电负荷屡创新高,为保障用电高峰电网安全运行,国家电网在部分高温高负荷省份试点推行电动汽车错避峰充电。   首批开展试点的是重庆、浙江、湖北...
    日期:08-20
    马斯克宣布:跟“小蓝鸟”说再见 改名后将集成支付等功能
    7月24日 消息:埃隆·马斯克周日表示,他计划将推特的标志从著名的蓝色小鸟改为“X”,这将是自从他去年以 440 亿美元收购了推特平台以来的最新重大变化。尼康z8预计发布时间int...
    日期:07-24
    消息称货拉拉将推出同城门到门跑腿服务“货拉拉跑腿”「货拉拉是上门拉货吗」
    2 月 8 日讯:据界面新闻报道,货拉拉即将推出同城门到门跑腿服务“货拉拉跑腿”。预计将于 3 月中旬全面开放骑手注册和用户人气征集活动,于 4 月正式开放服务和骑手接单。tcl...
    日期:02-09
    理想杀疯了!3月交付破2万辆 成新势力新老大 李想:30-50万SUV市场占比已接近20%
    理想汽车真的杀疯了。2023年4月1日,理想汽车公布了2023年3月交付数据。当月理想汽车共交付新车20,823辆,再次实现单月交付超20,000辆的成绩,同比增长88.7%。三星s10 升级one ui...
    日期:04-01
    性能小超人!iQOO Z8影像硬件公布:6400万像素主摄 OIS光学防抖
    快科技8月29日消息,iQOO Z8将于8月31日晚正式发布。官方表示,该机是性能小超人”,将搭载天玑8200旗舰芯片。iQOO官方今日官宣,iQOO Z8后置配备6400万像素超清主摄,支持OIS光学防...
    日期:08-29
    QQ同步助手活动_QQ同步助手618狂欢盛典会员大促3折起,让换机更简单
      一年一度的618购物节将至,相信有不少用户都想趁各大电商打折促销的机会,给自己或家人换一部新手机。然而新手机到手后,跨品牌、跨系统换机在进行资料转移、通讯录同步时的...
    日期:07-01
    京东数字化转型升级_“京东新动能计划”启动 为企业数字化转型降本提效
      新冠疫情为企业数字化按下“加速键”,推动产业、企业的数字化已成各方共识。   但如何通过行业资源整合,降低企业数字化转型门槛,让数字技术与企业运营管理实现最好的“...
    日期:08-25
    预计将于3-4月国内亮相 小米13-Ultra登陆IMEI数据库
    去年12月,小米推出了高端旗舰的最新力作小米13系列,包含小米13和小米13 Pro两款机型,在高端市场再度获得了广泛的好评,只是不少用户所期待的超大杯机型小米13 Ultra并未出现在...
    日期:09-20
    十一黄金周首日 百度地图显示北上广购物中心人流指数较平日大幅上涨
      2021十一黄金周正式开启,假期首日国民出行情况如何?据百度地图节假日出行仪表盘数据显示,截至10月1日14:00,当日全国高速平均拥堵里程3863.28km,较2020年同期下降33.3%, 较2...
    日期:07-17
    暗黑3谁代理的_分析称网易有望拿下《暗黑3》代理权 2013推出
    北京时间9月13日消息,在近日的一次投资日活动上,未来资产证券对网易游戏进行了分析,声称网易极有可能继续拿下《暗黑破坏神3》的游戏代理权,将在2013年面向中国市场推出这款游...
    日期:07-23
    分手了会删朋友圈吗?微信小技巧一招教会你「分手后发了朋友圈又删了啥心理」
    今天有一个热搜是分手了会删朋友圈吗?这个话题大家在讨论分成了两组。一组认为即使分手也要把曾经的美好记忆留下来,或者分手以后再复合删除了可就恢复了。另外一组认为,既然分...
    日期:10-26
    昆明骑行路线「骑行2023公里 大一新生耗时20天从昆明骑自行车到武汉上学」
    8月23日,今天武汉大学公众号介绍了一位特别的大一新生,他竟然从云南昆明一路骑到湖北武汉,全程耗时20天,2000多公里。据报道,这名小伙被武汉大学资源与环境科学学院空间信息与国...
    日期:08-24
    中国最北高铁新进展:首次穿越冻土、7小时旅途变2小时「中国最北的高铁哪个地方」
    9月5日13时,随着最后一榀715吨重、32米长的箱梁落定,哈伊高铁(铁伊段)先行工程的所有桥梁完成架设,为全线铺轨奠定坚实基础。索尼微单A7系列哈伊高铁起自黑龙江省哈尔滨市,途经绥...
    日期:09-06
    网店评论区不能成为“泛黄区”
      李英锋  “来选妃!”“兄弟们,这个可以”……看到这些评论,北京的高中生小刘有些不知所措。她经常在电商平台上购买衣物,下单之前习惯先去问答区或者评论区看看。可是在这...
    日期:08-25
    中国移动网络安全“硬实力”亮相国家网络安全博览会
    通信世界网消息(CWW)9月10日,2023年国家网络安全博览会在福州海峡国际会展中心开幕,基础电信企业、互联网公司以及信息技术产业链供应链多家企业单位参展。中国移动聚焦维护国家...
    日期:09-10
    依旧不肯放弃:Intel仍希望苹果成为其芯片客户「苹果cpu芯片供应商」
      自从去年,苹果开始在Mac中放弃Intel处理器,而采用自家的M1开始,Intel就不止一次提到,希望苹果能够再次成为它的客户。  近日的Intel创新活动中,Intel的客户计算集团执行副...
    日期:09-28
    杀入GPT战场,「两翼齐飞」的360胜算有几分?|内测体验_442两翼齐飞
    声明:本文来自于微信公众号 量子位 (ID:QbitAI),衡宇 发自 凹非寺 ,授权转载发布。360,正站在GPT风口浪尖迎来新一春。三星滨波官网在透露相关计划后2个月内,360快速给出了类ChatG...
    日期:04-18
    富途证券ESOP:华为VIVO小米,股权激励哪家强?
      孟晚舟案近期又有了新进展。   据媒体报道,孟晚舟引渡案审理已经于8月18日结束。第二天,华为也对此事做出声明:   “华为一直相信孟女士是清白的。我们也一直相信...
    日期:07-17