您的位置:首页 > 互联网

字节跳动推出颠覆性文生视频模型,可自由控制动作!_字节跳动 文创

发布时间:2024-02-20 10:08:05  来源:互联网     背景:

声明:本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区,授权转载发布。

在Sora引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。

与Gen-2、Pink1.0等模型不同的是,Boximator可以通过文本精准控制生成视频中人物或物体的动作。

例如,下雨天,大风把一位女生的雨伞吹走了。目前,很少有视频模型能精准做到这一点。

左侧为Boximator生成的视频

论文地址:https://arxiv.org/abs/2402.01566

项目地址:https://boximator.github.io/

Boximator案例赏析

metaverse元宇宙代币

我们先看一下Boximator与Gen-2、Pink1.0,在使用相同的文本提示词、图像生成的视频,所表现出来的不同动作。

为了方便观察,AIGC开放社区将对比视频整合在一起,最左边的是Boximator生成的视频。

1),一个可爱的3D男孩站着,然后走路。

在这个案例中,Pika1.0生成的视频男孩只是站着没有走动,Gen-2的视频走动了但不明显,只有Boximator产生了明显的走动动作。

2)一位英俊的男人用他的右手从口袋里拿出一朵玫瑰,并且在看着这朵玫瑰。

字节跳动 文创

这个案例Pika1.0和Gen-2表现的都非常不好,男士没有掏出玫瑰花的动作。Boximator再一次完美理解文本语义并做出了相应的动作。

3)往杯子里加红酒

字节跳动公司文化字节范

这个案例主要展示了控制物体动作的能力,Pika1.0和Gen-2都做出了倒酒的动作,但是杯子里的酒没有明显上升的动作。只有Boximator做到了倒酒+上升两个动作。

看了这3个案例,能感受到Boximator对文本语义精准理解,以及对动作控制的强大功能了吧。

Boximator模型介绍

为了实现对视频中物体、人物的动作控制,Boximator使用了“软框”和“硬框”两种约束方法。

硬框:可精确定义目标对象的边界框。用户可以在图片中画出感兴趣的对象,Boximator会将其视为硬框约束,在之后的帧中精准定位该对象的位置。

软框:软框定义一个对象可能存在的区域,形成一个宽松的边界框。对象需要停留在这个区域内,但位置可以有一定变化,实现适度的随机性。

两类框都包含目标对象的ID,用于在不同帧中跟踪同一对象。此外,框还包含坐标、类型等信息的编码。

控制模块和训练策略

控制模块可以将框约束的编码与视频帧的视觉编码结合,用来指导视频的精准动作生成。包含框编码器和自注意力层两大块。

框编码器:将框的坐标、ID、类型等信息,通过Fourier编码和MLP映射为控制向量。

自注意力层:将框的控制向量与视频帧的视觉向量通过自注意力建模其关系,学习将框指导帧生成。

训练策略方面,Boximator主要分为两个阶段:自跟踪阶段,训练模型的同时生成视频内容和对应的框,并简化框与对象的关系学习。

正常训练,训练模型只生成视频内容,框的内在表达已经学会指导对象生成。此外,训练还使用多阶段策略,逐步过渡从硬框到软框的约束,以及适当融合无框数据。

Boximator实验数据

为获得视频训练数据,研究人员从WebVid-10M数据集中,过滤出110万段动态明显的视频片段,并自动为其注释了220万个对象的边界框。并在PixelDance和ModelScope这两个模型上训练了Boximator。

淘宝店铺可以卖药吗

实验数据显示,Boximator在保持原模型视频质量,具有非常强大的动作控制能力。同时可以作为一种插件,帮助现有视频扩散模型提升生成质量。

在MSR-VTT数据集上,无论是视频质量还是框与对象对齐精度方面,Boximator都优于原模型。在人类评估中,Boximator生成的视频也在质量和运动控制上明显超过原模型。

字节跳动的研究人员表示,目前该模型处于研发阶段,预计2-3个月内发布测试网站。让我们期待一下国内挑战Sora的产品诞生吧!


返回网站首页

本文评论
2017年搜索引擎市场份额_2季度中国搜索引擎市场规模同比增长62%
  IT分析机构易观国际发布的《2011年第二季度中国搜索引擎市场季度监测》数据显示,2011年第2季度中国搜索引擎市场规模为43.2亿元,环比增长33.2%,同比增长62%。第二季度,搜索...
日期:07-22
李佳琦、小杨哥均已入驻,QQ短视频,能成为下一个“视频号”吗?
声明:本文来自于微信公众号 电商在线(ID:dianshangmj),作者:王亚琪,授权转载发布。继视频号之后,腾讯的王牌短视频产品,可能要再添一员了。企查查数据显示,腾讯科技(深圳)有限公司申...
日期:12-06
一加Ace2 Pro跑分成绩出炉 旗舰性能 首发24GB+1TB!
【手机中国新闻】7月20日,手机中国注意到,一加品牌旗下新机一加Ace2 Pro(型号为PJA110)在Geekbench平台上的跑分成绩已经出炉。这款手机取得了单核心1580分、多核心6163分的成绩...
日期:07-20
团伙6人因开设游戏私服牟利341万被判侵犯著作权「游戏侵权案」
10月8日 消息:据湖南高院公众号消息,团伙6人在未经北京畅游公司许可的情况下,下载该公司游戏源代码并架设私服游戏,牟利341万余元,被岳阳县人民法院判有期徒刑三年十个月至一年...
日期:10-15
花130万当网红未果起诉要回80万 法院:构成有偿委托合同关系_网红纠纷
吴女士通过朋友介绍,她结识了陈某,一个自称为娱乐圈人脉深厚的人物。陈某向吴女士承诺,他可以利用自己的人脉和资源,为吴女士的女儿打造一系列的宣传项目。为了实现这一目标,吴女...
日期:02-01
华为发布MatePad Air等十余款新品 同时发布华为全屋智能4.0
5月18日消息,华为今天发布了华为MatePad Air、华为MateBook X Pro及MateBook 16s、MateBook 14s、MateBook 14、华为MateBook E二合一笔记本、华为WATCH 4、华为儿童手表5、...
日期:05-18
Steam喜加一!原价74元《死亡岛:激流》免费领_死亡岛激流下载安装
快科技2月14日消息,《死亡岛(Dead Island)》系列的发行商Deep Silver和开发商DambusterStudios宣布,将于4月22日在Steam上推出《死亡岛2》的PC版。为了庆祝这一消息,《死亡岛:激流...
日期:02-14
华为nova 5i?安兔兔曝光华为新机:麒麟710加持(华为nova6安兔兔)
  型号为GLK-LX3的华为新机现身安兔兔数据库,该机有可能是即将发布的nova 5i。   核心配置上,该机采用2310×1080显示屏(暂不确定其屏幕形态),搭载麒麟710八核处理器,配备4...
日期:04-26
武汉吧友“直播”疫情生活 百度贴吧集合全国网民共战疫情(武汉时时疫情)
  “一个正在自我隔离的武汉人,来说说我所知道这次肺炎的情况……”这不是出自电视台等媒体的采访报道,而是来自于百度贴吧新型冠状病毒吧中一位名为“狼中霸王”的武汉吧...
日期:09-13
苹果 macOS Big Sur / Catalina 的 Safari 15.6.1 正式版发布,修复严重漏洞「macos big sur11.5.1」
  8 月 21 日消息,苹果本周发布了 iOS 15.6.1 和 macOS Monterey 12.5.1 正式版,两者都具有安全增强功能。为了将这些安全增强功能带给更多用户,苹果发布了适用于运行 macO...
日期:09-19
保时捷高速插队未成恐吓当事车主:你没看到我开的车吗 网友喊话应重罚
10月3日湖南洞口,一保时捷车主高速强行插队未成功,后多次别车并急停拦车, 恐吓当事车主:你没看我开的什么车吗?8日,平溪派出所民警回应称,接警后立即赶往,但闹事者已离开现场,且该辆...
日期:10-09
十一出行知多少,百度地图最全TOP级旅游目的地榜单出炉(十一出行旅游景点)
  盼望着,盼望着,秋风来了,十一的脚步近了!一切都像临近下班时的美妙样子,空气中弥漫着即将放假的快乐气息。正是适合“拖家带口”出游放松的好时刻,那么你是否已经开始制定出...
日期:12-13
百度广告管家市场份额暴涨 品牌广告市场复苏(百度的广告少了)
  2010年是互联网广告事业蓬勃发展的一年,随着09年经济危机阴霾的散去,中国宏观经济开始持续回暖,互联网自身的媒体价值再一次得到飞跃提升,成为广告主最认可的主流媒体之一...
日期:07-25
奥特曼卡片交流平台「娱乐方式呈多样化发展趋势,奥特曼卡成为10后社交新方式」
(原标题:娱乐方式呈多样化发展趋势,奥特曼卡成为10后社交新方式) 在当今社会,娱乐方式的多样化发展趋势日益明显,从电子游戏到短...
日期:02-07
520领证人数较去年大幅降低 呈现逐年走低的大趋势「520领证人多吗」
各地公布了今年520结婚登记的数据。从已经公开的几个省份的数据来看,与去年520相比,结婚登记的对数有明显的下滑。w3c是指万维网联盟江苏省今年5月20日共有11156对新人领取了...
日期:05-22
雅虎靠什么盈利_雅虎为什么赚不到钱:定位媒体而非技术公司
  2011年6月份数据显示,雅虎在美国市场独立访客有1.78亿,这与谷歌的1.82亿访问量十分接近。而且,雅虎在新闻、体育、财经、娱乐、地产等领域的访问量都是第一位。互联网公司...
日期:07-24
淘宝商城事件:污名化正义绑架民意
    开张42个月、拥有4亿多买家,5万多家商户,7万多个品牌的亚洲最大的开放B2C平台,在过去的一周遭遇了从天堂到地狱的劫难。淘宝商城,变成了淘宝伤城。       被冠以“铁...
日期:07-24
2021世界vr大会主题_百度世界2021VR分会场 最靠近“元宇宙”的AI科技盛宴
  叮!“AI这时代 星辰大海--百度世界2021”大会,明天上午09:30就要跟观众见面了。   除了一系列的新阵容、新生活、新物种、新场景、新突破,本次世界大会还有一个超级酷...
日期:05-14
华为分析师大会举行 孟晚舟现场谈“4极”目标
凤凰网科技讯 4月19日消息,2023华为全球分析师大会今日在深圳举行。本届大会将以“跃升数字生产力,加速迈向智能世界”为主题。华为副董事长、轮值董事长、CFO孟晚舟发表主题...
日期:04-19
乐视网发布澄清公告:贾跃亭仍为第一大股东 未发生变更
9月26日消息,乐视网日前发布澄清公告称,截止目前,天津嘉睿持有上市公司股权比例不变,为8.56%,......
日期:09-26