您的位置:首页 > 互联网

对标Gen-2!Meta发布新模型,进军文生视频赛道

发布时间:2023-12-05 16:42:44  来源:互联网     背景:

声明:本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区,授权转载发布。

随着扩散模型的飞速发展,诞生了Midjourney、DALL·E3、Stable Difusion等一大批出色的文生图模型。但在文生视频领域却进步缓慢,因为文生视频多数采用逐帧生成的方式,这类自回归方法运算效率低下、成本高。

即便使用先生成关键帧,再生成中间帧新方法。如何插值帧数,保证生成视频的连贯性也有很多技术难点。

科技、社交巨头Meta则提出了一种全新的文生视频模型Emu Video。该模型使用了分解式生成方法,先生成一张图像,再以该图像和文本作为条件生成视频,不仅生成的视频逼真符合文本描述,算力成本也非常低。

论文:https://emu-video.metademolab.com/assets/emu_video.pdf

在线demo:https://emu-video.metademolab.com/#/demo

Emu Video展示

Emu Video的核心技术创新在于,使用了分解式生成方法。之前,其他文生视频模型是直接从文本描述映射到高维视频空间。

但由于视频维度非常高,直接映射非常困难。Emu Video的策略是首先生成一张图像,然后以该图像和文本作为条件,生成随后的视频帧。

由于图像空间维度较低,生成第一帧更容易,然后生成后续帧只需要预测图像如何变化,这样整个任务难度很大程度降低。

技术流程方面, Emu Video利用先前训练好的文本到图像模型来固定空间参数,初始化视频模型。

京东活动节

然后仅需要训练时间参数来进行文本到视频任务。在训练时,模型以视频片段及相应文本描述作为样本进行学习。

在推理时,给定一段文本后,先用文本到图像部分生成第一帧图像,再输入该图像及文本到视频部分生成完整的视频。

文本到图像

Emu Video使用了一个训练好的文本到图像模型,可以生成很逼真的图片。为了让生成的图片更有创意,这个模型在海量的图像和文本描述进行预训练,学到了很多图像的风格,例如,朋克、素描、油画、彩绘等。

文本到图像模型采用了U-Net结构,包含编码器和解码器。编码器包含多层卷积块,并降采样获得较低分辨率的特征图。

解码器包含对称的上采样和卷积层,最终输出图像。两个文本编码器(T5和CLIP模型)被并行加入,分别对文本进行编码产生文本特征。

魅族flyme7.3

图像到视频

这个模块使用了跟文本到图像模块类似的结构,也是一个编码器-解码器结构。不同的是增加了处理时间信息的模块,也就是说可以学习如何把图片中的内容变化成一个视频。

在训练的过程中,研究人员输入一小段视频,随机抽取其中的一帧图片,让这个模块学习根据这张图片和对应的文本生成整段视频。

在实际使用时,先用第一个模块生成第一帧图片,然后输入这张图片和文本给第二个模块,让它生成整个视频。

这种分解的方法让第二个模块的任务变得比较简单,只需要预测图片会随着时间而怎么变化和运动,就可以生成流畅逼真的视频。

为了生成更高质量逼真的视频,研究人员进行了一些技术优化:1)采用零终端信噪比的散度噪声计划,能够直接生成高清视频,无需级联多个模型。之前的计划在训练和测试阶段信噪比存在偏差,导致生成质量下降。

为什么apple watch续航那么短

2)利用预训练文本到图像模型固定参数,保留图像质量和多样性,生成第一帧时不需额外训练数据和计算成本。

3)设计多阶段训练策略,先在低分辨率训练快速采样视频信息,再在高分辨率进行微调,避免全程高分辨率的计算量大。

在人类评估中显示,Emu Video生成的4秒长视频比其他方法更具质量和遵循文本的要求。语义一致性超过86%,质量一致性超过91%,明显优于Gen-2、Pika Labs、Make-A Video等知名商业模型。


返回网站首页

本文评论
外卖小哥爬泰山送外卖跑腿费500元 不坐缆车徒步上山:就为一个键盘
9月8日,山东泰安一位游客偶遇一位跑腿小哥爬泰山送外卖。据跑腿小哥称,客户在山顶点了一个键盘,自己送这一趟能收500元跑腿费,为了省钱不坐缆车徒步上山。微软收购谈判方法不少...
日期:09-10
理想汽车秋季发布会「理想汽车将于 9 月 30 日举行理想L8发布会」
9 月 28 日讯:理想汽车宣布,将于 9 月 30 日15: 00 举行理想L8 发布会。英特尔首席执行官在解释摩尔定律诺基亚一堆摄像头iphone13pro 128不支持4kipad pro做图片设计...
日期:09-29
薇娅夫妇公司被起诉侵权 涉及著作权纠纷「薇娅幕后公司」
近期,浙江法院网公布了一起涉及薇娅(黄薇)、谦寻(杭州)文化传媒有限公司、广州薇蜜可思服饰有限公司等的著作权纠纷案件的开庭通知,原告是闻某某,案件将于8月3日在杭州市拱墅区人...
日期:07-28
女子坐飞机意外发现自己包机了:临时增设、不对外售票「飞机包机对行李有要求吗」
看电影时有可能买了一张票就能包场”,坐公交有时候也会遇到这种,但你见过坐飞机买一张票就包机”了的吗?据搜狐千里眼报道,4月1日,海南琼海一女子乘机意外发现自己包机了。当事人...
日期:04-03
年轻人迷上珍珠直播,开蚌开出的是“泡沫”?_珍珠开蚌技巧
声明:本文来自于微信公众号 锌刻度(ID:znkedu),作者:黎炫岐,授权转载发布。“珍珠有千千万,一颗能定乾坤。姐妹们赶紧跟上节奏。”“想要大珍珠,想要高货,一定要手速快了!”“我们...
日期:11-02
特斯拉玩具跑车「特斯拉万元玩具车Cyberquad正式开售:11990元、续航13公里」
快科技7月14日消息,今天上午10点整,特斯拉中国官网正式开售了Cyberquad玩具车,售价11990元。这么一款万元玩具车,居然刚上线时一度让特斯拉官网挤爆,购买界面出现卡顿,甚至导致无...
日期:07-14
创业者如何在红海中找到出路?真我手机用五年给出答案
作者:正风 来源:正和岛(ID:zhenghedao)最近几年,“卷”愈发成为各行各业的一个关键字。查莉成长日记第一季与企业家们交流时,一个很深的感触是,几乎所有人都在感慨,现在不管做什么,只...
日期:09-04
曝华为正在清理骁龙机型库存 为切换产品线做准备_华为手机清理代码大全
据报道,有爆料人士透露,华为正在清理老款机型的库存,它们正在为切换产品线做准备。预计在今年年底到明年年初,华为将会掀起“全线新品的洪流”。曝华为手机即将全面切换产品线手...
日期:10-23
白玉兰奖完整名单出炉 年初大热电视剧《狂飙》挂零陪跑_白玉兰奖2018
日前第28届上海电视节白玉兰奖正式公布,最受关注的中国电视剧单元中,雷佳音获得最佳男主角奖,吴越获得最佳女主角奖,不过年初大热的电视剧《狂飙》颗粒无收,陪跑了。最佳电视剧中...
日期:06-24
三星galaxy z fold2 5g评测「三星Galaxy Z Fold5明天发:厚度/重量控制输给了对手荣耀华为」
快科技7月25日消息,三星将会在7月26日推出Galaxy Z Fold5和Galaxy Z Flip5两款折叠屏旗舰,其中Galaxy Z Fold5是大折叠屏。据GSMArena报道,三星Galaxy Z Fold5外屏尺寸是6.2英...
日期:07-25
搭载骁龙W5可穿戴平台,OPPO Watch 4 Pro持续引领全智能可穿戴旗舰「oppo穿戴智能手表」
通信世界网消息(CWW)8月29日,OPPO Watch系列新品OPPO Watch 4 Pro正式发布。全新OPPO Watch 4 Pro搭载骁龙W5可穿戴平台,凭借全面领先的软硬件实力表现,打造极致使用体验,并持续引...
日期:08-30
Runway免费平替!文生视频AI工具Pika Labs  让你30秒“拍出”广告大片
8月21日 消息:Pika Labs 是一款强大的文本转视频平台,它能够根据用户输入的提示词和参考图片,生成具有动态转换和流畅转场的短视频。Pika 的制作过程完全由 AI 完成,用户只需要...
日期:08-22
开发商正在放弃Android应用,用户可能面临风险_安卓app开发会遇到的问题
最近的数据显示,跟iOS或iPad应用相比,Android应用在没有更新的情况下被放弃的数量更多。一段时间没有更新的应用可能会给用户带来安全风险,Pixalate周二的一份报告显示,近年来An...
日期:09-29
“元宇宙”虚拟世界的营销法则「在虚拟世界里,营销的真实意义」
声明:本文来自于微信公众号甲方财经(ID:jiafangcaijing2019),作者:甲方财经,授权转载发布。从2021年初元宇宙爆红以来,每天都会新增一个“元宇宙”,每五天会新增一个相关企业进场,...
日期:10-28
经济日报评“二舅”视频刷屏:感动全网的爆款并不“意外”
来源:经济日报   这两天,很多人被《回村三天,二舅治好了我的精神内耗》刷屏了。对于创作者而言,视频爆火是一个意外收获,但是我们却可以进一步思考爆款背后的文化意义。 微软高...
日期:07-31
苹果公司获取ipad商标的动机_苹果公司撤销iPad中国商标的法律分析
  据媒体报道,业内最炙手可热的电子产品,苹果公司推出两个月即销量突破200万台的新宠——全触摸屏电脑iPad最近在中国碰到了商标问题:一家名为唯冠科技的公司早在2000年就注...
日期:07-30
小米13曝有10款颜色:卖到4500「小米11那个颜色卖的好」
小米目前还没有官宣,但有消息称小米13将会在下周发布,而目前产业链公布了小米13手机的外观,配色高达10款,而且还都采用直屏的方案,而小米13Pro则延续上一代的曲面屏方案。我们先...
日期:11-26
努比亚Z50 Ultra正式发布 第四代全面屏 售价3999元起
3月7日消息,努比亚正式发布其第一部Ultra旗舰机型——努比亚Z50 Ultra。搭载第四代屏下摄像技术,35mm+85mm黄金双焦段定制光学,骁龙8 Gen2旗舰芯片,售价3999元起。努比亚Z50 Ult...
日期:03-07
tiktok巴西用户量「TikTok 在巴西和印度尼西亚推出名为“TikTok Music”的音乐流媒体服务」
7月7日 消息:据techcrunch报道,TikTok正在试图挑战Spotify和Apple Music,通过推出名为“TikTok Music”的新订阅音乐流媒体服务。该服务将在巴西和印度尼西亚推出,允许用户同步...
日期:07-07
S24系列手机即将发布_ 三星Galaxy_三星s214g
来源:中关村在线三星推出Galaxy S24系列手机,据韩国媒体报道,该公司为该系列设定了3500万部的出货目标,比之前的Galaxy S23系列高出10%。目前还不清楚这款新手机的具体规格和功...
日期:11-06