您的位置:首页 > 互联网

拖拽下图像就能生成视频,中科大、微软等DragNUWA属实惊艳

发布时间:2023-08-22 03:08:51  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:小舟,授权转载发布。

随着 ChatGPT、GPT-4、LLaMa 等模型的问世,人们越来越关注生成式模型的发展。相比于日渐成熟的文本生成和图像生成,视频、语音等模态的 AI 生成还面临着较大的挑战。

现有可控视频生成工作主要存在两个问题:首先,大多数现有工作基于文本、图像或轨迹来控制视频的生成,无法实现视频的细粒度控制;其次,轨迹控制研究仍处于早期阶段,大多数实验都是在 Human3.6M 等简单数据集上进行的,这种约束限制了模型有效处理开放域图像和复杂弯曲轨迹的能力。

基于此,来自中国科学技术大学、微软亚研和北京大学的研究者提出了一种基于开放域扩散的新型视频生成模型 ——DragNUWA。DragNUWA 从语义、空间和时间三个角度实现了对视频内容的细粒度控制。本文共一作殷晟明、吴晨飞,通讯作者段楠。

图片

论文地址:https://arxiv.org/abs/2308.08089

以拖动(drag)的方式给出运动轨迹,DragNUWA 就能让图像中的物体对象按照该轨迹移动位置,并且可以直接生成连贯的视频。例如,让两个滑滑板的小男孩按要求路线滑行:

iphone最值得入手的是哪一款

特斯拉model y国产交付时间

图片

图片

还可以「变换」静态景物图像的相机位置和角度:

图片

图片

方法简介

该研究认为文本、图像、轨迹这三种类型的控制是缺一不可的,因为它们各自有助于从语义、空间和时间角度控制视频内容。如下图1所示,仅文本和图像的组合不足以传达视频中存在的复杂运动细节,这可以用轨迹信息来补充;仅图像和轨迹组合无法充分表征视频中的未来物体,文本控制可以弥补这一点;在表达抽象概念时,仅依赖轨迹和文本可能会导致歧义,图像控制可以提供必要的区别。

图片

DragNUWA 是一种端到端的视频生成模型,它无缝集成了三个基本控件 —— 文本、图像和轨迹,提供强大且用户友好的可控性,从语义、空间和时间角度对视频内容进行细粒度控制。

图片

图片

为了解决当前研究中有限的开放域轨迹控制问题,该研究重点关注三个方面的轨迹建模:

  • 使用轨迹采样器(Trajectory Sampler,TS)在训练期间直接从开放域视频流中采样轨迹,用于实现任意轨迹的开放域控制;

  • 使用多尺度融合(Multiscale Fusion,MF)将轨迹下采样到各种尺度,并将其与 UNet 架构每个块内的文本和图像深度集成,用于控制不同粒度的轨迹;

  • 采用自适应训练(Adaptive Training,AT)策略,以密集流为初始条件来稳定视频生成,然后在稀疏轨迹上进行训练以适应模型,最终生成稳定且连贯的视频。

图片

实验及结果

该研究用大量实验来验证 DragNUWA 的有效性,实验结果展示了其在视频合成细粒度控制方面的卓越性能。

与现有专注于文本或图像控制的研究不同,DragNUWA 主要强调建模轨迹控制。为了验证轨迹控制的有效性,该研究从相机运动和复杂轨迹两个方面测试了 DragNUWA。

如下图4所示,DragNUWA 虽然没有明确地对相机运动进行建模,但它从开放域轨迹的建模中学习了各种相机运动。

图片

为了评估 DragNUWA 对复杂运动的精确建模能力,该研究使用相同的图像和文本对各种复杂的拖动(drag)轨迹进行了测试。如下图5所示,实验结果表明 DragNUWA 能够可靠地控制复杂运动。

图片

iphone12出厂贴膜吗

此外,DragNUWA 虽然主要强调轨迹控制建模,但也融合了文本和图像控制。研究团队认为,文本、图像和轨迹分别对应视频的三个基本控制方面:语义、空间和时间。下图6通过展示文本(p)、轨迹(g)和图像(s)的不同组合(包括 s2v、p2v、gs2v、ps2v 和 pgs2v)说明了这些控制条件的必要性。

图片


返回网站首页

本文评论
三维打印人造气动肌肉问世 可支撑超过自身千倍的重量
  科技日报北京8月31日电;(记者张梦然)意大利研究人员设计并制造了一种由3D打印结构组成的人造气动肌肉,其可根据需要伸展和收缩。据《科学·机器人》杂志报告,这是一种在单一...
日期:09-01
“背刺”老车主!特斯拉Model 3/Y变相降价:7000元保险补贴来了「特斯拉model3保险费」
前不久,网上流传了一则国产Model 3和Model Y将大幅降价的消息,对此,特斯拉官方回应称并不属实。不过,今日特斯拉正式公布了Model 3和Model Y的最新购车政策,在2022年10月1日至202...
日期:10-06
24强逐鹿欧罗巴!你押宝哪队会最终傲视群雄?
  从葡萄牙捧杯至今,足球迷们阔别欧洲杯的绿茵场已五载有余。北京时间6月12日凌晨3:00,沉淀了五年的欧洲杯强势来袭,24支劲旅、31天51场精彩对决,即将燃爆今夏。   据记者...
日期:04-27
爱奇艺自制剧《北灵少年志之大主宰》上线16小时内容热度突破8000 全网热度飙升凸显爆款品质
  爱奇艺自制剧《北灵少年志之大主宰》(以下简称《大主宰》)于1月30日20:00独家上线爱奇艺,上线3小时爱奇艺站内内容热度突破7000,上线16小时突破8000,并呈现持续上涨趋势。...
日期:04-14
小米平板处理器相当于骁龙多少「1899元,小米平板6开售,11英寸2.8K屏幕 骁龙870处理器」
4月19日消息,小米平板6和小米平板6 Pro今日正式开售,首销价1899元起,前1800名下单购买,赠送保护壳。别克昂科拉gx四缸小米平板6售价:6GB128GB售价1899元,8GB 128GB售价1999元, 8GB...
日期:04-19
画面瘆人!印度机场从一女子包中搜出22种蛇_印度有部蛇女的电影叫什么
5月2日消息,想必谈蛇色变的朋友,不在少数。极米投影画面苏宁茅台购物车抢购据AL报道,上周五(4月28日)在印度清奈机场,一名女子被海关扣留。经查,其包内共搜出至少22条不同种类的蛇,...
日期:05-02
京东双十一第二波活动开启 京东双11红包加码省钱攻略_京东商城双十二活动
从11月4日开始,京东的活动就进入了第二波活动期,这期间商品都是预告阶段,同时这阶段的红包活动也进入了第二阶段,京东红包是可以现领现用,但是很多商品也是要11月10日起才能购买...
日期:11-10
华为云WeLink带你走进华为,共探数字化转型!(华为wlink平台)
  日前,第二届“WeLink带你走进华为”活动在深圳坂田华为基地如期举行。自去年12月发布会以来,华为云WeLink受到大家的广为关注,此次活动,来自各界的大咖汇聚一堂,近距离感受...
日期:07-18
5G到来真会刺激你换手机?透过数据洞察真相_换5g手机卡
  如今,几乎所有人都说2019年是5G通信的元年,各大厂商也争相在年内推出支持5G的手机。但目前的5G手机还面临着运营商网络覆盖不全,5G基带耗能较大,通信技术不成熟的问题。  ...
日期:10-15
一季度GDP同比增长4.5%  第三产业增加值为165475亿元_第1季度gdp增速
2023年一季度国民经济运行情况正式公布。据初步核算,国内生产总值为284997亿元,按不变价格计算同比增长4.5%,环比增长2.2%。在分产业观察下,第一产业增加值为11575亿元,同比增长3...
日期:04-18
93%色情视频网站捆绑病毒 过半网民为看片关闭杀软
  4月20日消息,国内知名安全公司金山网络发布最新安全数据,93%色情视频网站被捆绑了病毒木马,而约五成访问者为了看片不惜铤而走险,关闭杀毒软件运行带毒播放器。金山网络安...
日期:07-27
高通骁龙8 Gen2宣布:小米13有望全球首发_骁龙8cx Gen2
今天下午,高通公司宣布,将于11月16日-11月18日举行2022骁龙峰会,地点选择在三亚海棠湾,这次峰会高通公司会发布骁龙8 Gen2移动平台。鲁大师年度最流畅系统手机目前高通骁龙8 Gen...
日期:11-06
一公司称“小气吧啦的特斯拉”“毛坯房汽车”!被判赔10万「特斯拉房屋」
近日,深圳市中级人民法院发布了2022年度深圳法院知识产权十大典型案例。其中,南山区人民法院审结的特斯拉(上海)有限公司与蓝电(深圳)汽车服务有限公司(下称蓝电公司)不正当竞争纠纷...
日期:05-01
二手笔记本配件回收「二手笔记本配件」
在现代社会,随着科技的不断进步,笔记本电脑已成为人们的生活和工作必备品。然而,随着时间的推移和技术的发展,许多笔记本电脑的配件会逐渐出现故障或失效,这个时候就需要寻找来进...
日期:05-29
袁弘张歆艺化身红心夫妇开启抖音首播,橙影成为明星Vlog时尚单品(袁弘张歆艺婚礼视频抖音)
  上周,娱乐圈的模范夫妇袁弘张歆艺宣布要开启首度合体直播,一起为大家带货,消息一出,立刻受到了广泛关注,点燃了人们抢购的激情。值得一提的是,有一款近期销售火爆的网红vlog...
日期:07-14
消息称三星Galaxy S23 Ultra大幅提升夜间拍摄功能
IT之家 1 月 2 日消息,随着三星 Galaxy S23 系列的发布越来越近,关于该系列手机的更多细节爆料。爆料人士 Ice Universe 推文称,使用三星 Galaxy S23 Ultra 在夜间模式下拍摄的...
日期:01-02
Windows 8 Beta首张截图?微软展示全新Apps屏幕
  关于Windows 8的最新界面,大家关注最多的恐怕就是全新的Start Screen开始屏幕了。关于这个开始屏幕,大家的评论也是褒贬不一,微软在官方博客中也回答了不少众人关心的问题...
日期:07-23
魅族为魅族20系列提供3年保修「魅族手机一年保修范围」
魅族宣布,旗下魅族20系列现在将拥有“全覆盖”保修服务,为6月20日前购买手机并在6月27日前激活的用户提供3年保修。魅族助理副总裁万志强表示,提供3年保修的决定是经过深思熟虑...
日期:05-15
oppo reno官方售价「OPPO Reno9售价公布:2499元起」
OPPO Reno9手机正式发布,新机有着不错的外观以及独特的工艺,首发共有4款配色,配置也有三款,发布价格如下:8GB+256GB版本售价2499元。12GB+256GB版本售价2699元。12GB+512GB版本...
日期:11-28
分析师建议苹果推出不同尺寸的iPhone和iPad_iphone所有型号的尺寸比较
  北京时间9月17日消息,据国外媒体报道,市场研究公司MobileTrax分析师格里·普迪(Gerry Purdy)发表公开信向蒂姆·库克建议,苹果应该收购TiVo或SanDisk,并推出多个版本的iPho...
日期:07-23