您的位置:首页 > 互联网

带你穿越清明上河图!DragNUWA惊艳亮相:一拖一拽让静图秒变视频「《清明上河图》完整图视频」

发布时间:2023-09-06 20:38:33  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】微软提出文本图像轨迹条件视频生成模型DragNUWA,支持手绘轨迹驱动图像动态化,实现复杂运动及场景控制。

微软开发的视频生成模型DragNUWA让清明上河图动起来了!

只要用拖动的方式给出运动轨迹,DragNUWA就能让图像中的物体对象按照该轨迹移动位置并生成连贯的视频。

DragNUWA能同时控制摄像机和多个对象的移动以及复杂的轨迹,从而生成具有现实世界场景和艺术绘画特色的视频。

近年来,可控视频生成技术备受关注。但现有可控视频生成仍存在两大局限:

1. 现有的大多数工作都集中在文本、图像或基于轨迹的控制上,导致无法在视频中实现细粒度控制。

2. 轨迹控制的研究仍处于早期阶段,大多数实验都是在Human3.6M等简单数据集上进行的。这种局限性限制了模型处理开域图像和有效处理复杂曲线轨迹的能力。

来自微软的研究人员提出了基于开域扩散的视频生成模型: DragNUWA。

论文地址:https://arxiv.org/abs/2308.08089

DragNUWA针对现有研究中控制粒度不足的问题,同时引入了文本、图像和轨迹信息,从语义、空间和时间角度对视频内容进行精细控制。

第一组展示了对复杂轨迹的控制,包括复杂运动(红色弯曲箭头和摄像机移动(红色向右箭头)。

第二组展示了语言控制的影响,将不同的文字与相同的图像和轨迹配对,以达到在图像中引入新对象的效果。

第三组展示了图像控制的影响,展示了真实世界和艺术视频的生成。

为了解决目前研究中开域轨迹控制有限的问题,研究人员从三个方面提出了轨迹建模:

首先,通过轨迹采样器(TS)实现对任意轨迹的开域控制;其次,通过多尺度融合(MF)控制不同粒度的轨迹;最后,通过自适应训练(AT)策略以根据轨迹生成一致的视频。

工作原理

DragNUWA支持三种可选输入:文本p、图像s和轨迹g,并侧重于从三个方面设计轨迹。

首先,轨迹采样器(TS)从开域视频流中动态采样轨迹。

《清明上河图》完整版

其次,多尺度融合(MF)将轨迹与文本和图像深度融合到UNet 架构的每个区块中。

最后,自适应训练(AT)可根据光流条件调整模型,使轨迹更友好。

最终,DragNUWA 能够处理包含多个物体及其复杂轨迹的开域视频。

DragNUWA的训练过程概览

为了验证轨迹控制的有效性,研究人员从摄像机移动和复杂轨迹两个方面对DragNUWA进行了测试。

大力智能家教灯讲题

在视频制作中,摄像机移动在为观众创造动态和引人入胜的视觉效果方面发挥着重要作用。

《清明上河图》完整图视频

不同类型的镜头移动有助于叙述故事或强调场景中的元素。常见的镜头移动不仅包括水平和垂直移动,还包括放大和缩小。

如下图所示,DragNUWA虽然没有明确对摄像机运动进行建模,但它可以从开放域轨迹建模中学习到各种摄像机运动:

利用相同的文字和图像,同时改变拖动轨迹,可以实现各种摄像机移动效果。例如,可通过在所需缩放位置绘制方向轨迹来表达放大和缩小效果。

视频中的物体往往具有复杂的运动轨迹。面对多个运动物体、复杂的运动轨迹以及不同物体之间不同的运动幅度,视频生成中的运动建模是一个巨大的挑战。

研究人员通过使用相同的文字和图片,同时改变拖动轨迹,实现了各种复杂的轨迹效果。

这证明了DragNUWA具有复杂运动进行精确建模的能力:支持复杂的曲线轨迹,允许轨迹长度可变,并支持同时控制多个对象的轨迹。

DragNUWA通过整合三个基本控制来实现精细视频生成:文本、图像和轨迹,分别对应语义、空间和时间方面。

这三个条件是不可或缺的:

s2v和p2v说明了图像和文本控制作为单独条件使用时的限制:

如s2v所示,虽然图像本身提供了一些潜在的语义和动力学信息,但它并不能实现对背景和角色运动的精确控制。

如p2v所示,当只提供文本时,模型能成功生成与文本相关的视频,但外观和动态仍完全无法控制。

gs2v和ps2v强调了文本(p)和轨迹(g)的重要性。在没有文本的情况下,无法确定模糊图像 (s) 代表的是海上冲浪还是雪地冲浪。在没有轨迹的情况下,模型会自动假定人物正在向左移动。

在三个基本条件都满足时,pgs2v中实现了在雪地上冲浪和向右移动的控制。

数据集

特斯拉y价格拉model y

在训练过程中,研究团队利用WebVid和VideoHD数据集来优化 DragNU。

《清明上河图》完整图视频

WAWebVid是一个庞大的数据集,由1000万个网络视频组成,涵盖了现实世界中的各种场景,并配有相应的标题。其涵盖了广泛的运动模式,适用于基于轨迹的开放域视频生成。

VideoHD是研究团队基于网络抓取的视频建立的数据集。研究人员首先从互联网上收集了75K高分辨率、高质量的视频片段。然后,使用BLIP2对这些片段进行标注。最后,手动过滤掉了生成结果中的一些错误。

作者简介

吴晨飞博士是微软亚洲研究院的高级研究员。他的研究重心是大规模预训练、多模态理解和生成。主要研究工作包括多模态生成模型NUWA(女娲)系列(NUWA, NUWA-LIP, NUWA-Infinity, NUWA-3D, NUWA-XL)、多模态理解模型Bridge Tower(桥塔)系列(KD-VLP, Bridge-Tower)以及多模态对话系统Visual ChatGPT。在CVPR, NeurIPS, ACL, ECCV, AAAI, MM等会发表多篇论文。

段楠博士,微软亚洲研究院资深首席研究员,自然语言计算团队研究经理,中国科学技术大学、西安交通大学兼职博导,天津大学兼职教授,主要从事自然语言处理、多模态基础模型、代码智能、机器推理等研究,多次担任NLP/AI学术会议程序主席和领域主席,发表学术论文100余篇,Google Scholar引用10000余次,持有专利20余项。他被评为中国计算机协会(CCF)杰出会员、CCF-NLPCC青年科学家(2019年)、DeepTech中国智能计算科技创新人物(2022年)。

参考资料:

https://arxiv.org/abs/2308.08089


返回网站首页

本文评论
hasee笔记本_hasee笔记本电脑
Hasee笔记本是中国一家著名的计算机品牌,也是中国电子科技集团公司旗下的一个子公司。该公司专门为中国的教育市场提供电脑产品和服务,在国内市场非常受欢迎。Hasee笔记本凭借...
日期:05-29
新氧科技第二季度营收3.09亿元 同比下滑31.6%「新氧科技第二季度营收3.09亿元 同比下滑31.6等于」
  讯 北京时间8月16日晚间消息,医美O2O平台新氧科技(Nasdaq: SY)今日发布了截至6月30日的2022年第二季度财报。财报显示,新氧科技第二季度总营收为3.091亿元(约合4610万美元),与...
日期:10-03
推特直播app「xAI推特直播实录:将正面对抗谷歌与OpenAI」
面对人工智能的浪潮,马斯克终于再度出手了!7.15日,马斯克与xAI创始团队一起,在推特开启了一场直播回答公众疑问。包括对于人工智能的安全监管、对于OpenAI以及谷歌的看法、对于...
日期:07-15
哈罗单车的骑行卡能退吗_哈啰单车崩了?官方回应:已修复,受影响用户补偿1天骑行卡
讯 8月15日上午消息,今日早间,有许多网友在社交平台反馈称,哈啰单车崩了,手机无法扫码解锁车辆,由于正好是周一早高峰,不少用户出行受到影响。对此,哈啰在其官方微博回应表示,由于第...
日期:08-17
“小天才”被责令封禁不良应用(小天才应用禁用在哪)
本报讯(记者;;王薇)对确认违规App立即下架永不上架,对已经下载的不良应用进行封禁,家长端App增加“远程安装”功能等。昨天,北京市消费者协会、天津市消费者协会、河北省消费者权...
日期:08-20
iPhone 14爆料合集来了:然而十三香可能是真的!(不买苹果12因为十三香图片)
对于数码爱好者来说,每次快到九月的时候,就能隐约感受到一股无形的力量在吸引着我们,因为。。。   果子哥每到这个时候就会发布新一代 iPhone。   不过托尼觉得今年这种感...
日期:08-17
独家: Kappa的私域会员数字化增长与运营_kappa会员卡
声明:本文来自于微信公众号见实(ID:jianshishijie),作者:见实,授权转载发布。这天,一位连锁品牌高层和见实团队一起讨论他们的私域运营优化建议。对方自营、连锁加盟之下,累积全国...
日期:06-28
零售电商行业的终极理想
从「CK商业逻辑研究院」的公众号看了一篇关于实体店的分析文章,里面关于实体店和电商的购买距离、......
日期:09-29
腾讯优图以深度学习为基础,AI+工业解决方案已在多个质检领域落地
  5月21日—23日,2019腾讯全球数字生态大会在昆明召开。在AI智能制造分论坛上,腾讯优图实验室总监戴宇荣发表了《深度学习技术与应用分享》的主题演讲,以AI在工业中的实际应...
日期:06-24
美团网2011年广告招标预算达1.3亿元_美团推广预算
  1月25日消息,据可靠消息透露,美团网近期将进行2011年度广告招标,初步预算达1.3亿元。据了解,这一投入也是迄今团购行业的最大手笔。   此次广告招标,除了数额巨大,其时间选...
日期:07-26
联想笔记本维修电话_联想笔记本维修电话客服中心
联想笔记本是市面上比较常见且性能优异的笔记本品牌,然而在长期的使用过程中,难免会出现一些硬件故障或软件问题,这时候需要及时联系进行维修,以保障电脑的使用正常性。redmig60...
日期:05-31
害怕将数据泄露给 ChatGPT?微软正计划推出 10 倍成本的私有版本 AI 聊天机器人
5月5日消息:根据 The Information 的一份报道,微软正计划向银行、医疗机构和其他关注数据泄露和监管合规的大型机构提供以隐私为重点的专有 ChatGPT 聊天机器人。小米小型电...
日期:05-05
uos安装百度网盘「百度网盘UOS版重磅更新 10大功能升级 下载更方便了」
10月28日消息,据统信UOS官方,日前,百度网盘UOS版迎来重磅更新,包括好友、最近访问、悬浮窗、自定义分享、不休眠设置、消息提示、隐私设置、文件导出、文件操作、便捷下载”10大...
日期:10-29
144MB缓存游戏神U!AMD锐龙7000X3D定档:情人节大礼
CES 2023大会期间,AMD为桌面平台带来了锐龙7000 65W智酷版、锐龙7000X3D缓存版两大新品,前者已经上市,后者当时只是模糊地说2月份。现在,AMD官网规格表悄然更新,锐龙7000X3D系列...
日期:01-11
鸿蒙升级nova「又一批鸿蒙3.0测试版名单开放,Nova老用户终于等到了」
鸿蒙Harmony 3开启了新一轮测试招募,招募报名截止到10月 13日,华为MatePad系列和华为Nova系列用户可以通过“我的华为 / 会员中心”App-首页-升级尝鲜入口进入报名。报名成功...
日期:10-18
你有手机内存焦虑吗?鸿蒙系统能帮你忙_鸿蒙系统内存不够用
中关村在线消息:10月10日上午,一则名为“你有手机内存焦虑吗”的话题上了微博热搜。手机内存作为一个用户购买手机时的注重点,多大能用、多大够用一直是消费者们讨论的话题。其...
日期:10-13
张一鸣,难成元宇宙时代的乔布斯_张一鸣 乔布斯
声明:本文来自于微信公众号 Tech星球(ID:tech618),作者:杨晓鹤,授权转载发布。字节跳动的P0级项目,在大力教育折戟后,就只剩下Pico了。而为了Pico,字节可谓是费了不少心血。据传2021年...
日期:10-03
天玑900处理器性能「性能稳了!曝天玑9300 CPU性能相比前代单核提升13%,多核提升33%」
据数码圈消息人士透露,联发科即将在年底发布旗舰移动处理器天玑 9300。数码博主@数码闲聊站透露,该处理器的CPU性能较前代提升了13%的单核和33%的多核。目前来看,天玑 9300将采...
日期:06-08
Meta员工集体炮轰扎克伯格:正用元宇宙大梦“搞死”公司
  讯 北京时间12月12日早间消息,据报道,最近,在美国匿名网络论坛“Blind”上,社交网络巨头Meta的员工们通过各种评论,炮轰掌门人扎克伯格。  许多评论发表于Meta宣布解雇13%...
日期:12-12
以“双碳”目标共拓城市级智慧能源市场:特斯联、三菱重工战略签约
  6月17日,特斯联科技集团有限公司与三菱重工空调系统(上海)有限公司(以下简称“三菱重工空调公司”)签署低碳城市及智慧能源开发战略合作协议。特斯联创始人兼CEO艾渝、...
日期:08-20