您的位置:首页 > 互联网

谷歌发布新大语言模型:零样本生成10秒视频达SOTA!

发布时间:2023-12-20 21:57:25  来源:互联网     背景:

明敏 发自 凹非寺
量子位 | 公众号 QbitAI

你敢信?大熊猫都会打牌了!



看这毛茸茸的脑袋、抓牌的动作……

而这其实都是AI生成的,还是零样本那种。

这就是谷歌最新大语言模型VideoPoet。

它不仅没有用视频领域常用的扩散模型,还零样本实现了SOTA。相较于此前一些模型,画面更加稳定、动作更加逼真,清晰度也直线up。



和Bard再合作一下,轻松搞定1分钟长的视频小片,从脚本到画面全部不用人类插手。



这效果,让网友们直呼:视频生成进化速度也太快了吧。



不少人都表示想玩!



有人还说,VideoPoet效果这么好,看来Runway和Pika要加速了!



画面逼真动作稳定

具体来看VideoPoet的能力非常全面。包括:

  • 文本-视频
  • 图像-视频
  • 视频编辑
  • 风格化处理
  • 画面补充

文本到视频任务,视频输出长度可调整,而且可以基于文本内容应用一系列动作和风格。



图像到视频任务,则能让静态图片动起来。比如一些世界名画和照片,都可生成视频。



同时也能调整视频风格,需要额外输入一些文本,然后模型会预测视频的光照和深度信息。

iphone15pro max渲染图

比如输入“铁狮子在熔炉的火光中咆哮”,原本无厘头的太阳花狮子就变得凶猛威严起来。



当然也能进行视频编辑,比如让视频中的机器人随意运动、背景中加上烟雾等,都是输入文字指令即可实现。



或者是输入图像,然后修改它的动作。让蒙娜丽莎转动身体、打哈欠。



以及可调整镜头动作。基本的缩放、弧线、航拍镜头都可搞定。



如果想让扩充视频画面、增加视频元素,VideoPoet也能实现。



值得一提的是,VideoPoet还可以根据视频配乐。

这也是让不少网友感到惊讶的地方。



比如先让VideoPoet生成一段小熊打架子鼓的视频,然后不给它任何文本提示,VideoPoet根据画面内容自己生成了音频。

如果想要生成更长的视频,可以通过输入视频的最后一秒画面让VideoPoet预测下一段视频,反复多次即可实现。

如下案例时长约为10秒。



用LLM零样本生成视频

不仅是生成效果好,VideoPoet还有一个优势在于,以LLM为基础,它能更方便利用现有大模型进行改进。

比如VideoPoet就使用了T5的编码器。

华为mates10还有什么新功能



不过由于大语言模型使用离散token,使得它生成视频具有一定挑战性。

与自然语言不同,人类对视觉世界尚未演化出最佳的词汇表达。

通过视频/音频tokenizer可以来克服这一问题。

它们能将视频和音频编码为离散token,也可将其转换为原始表示。

VideoPoet正是基于这一原理实现。

它利用MAGVIT V2来搞定视频图像表示,SoundStream搞定音频表示。

前者是谷歌CMU团队在今年10月提出的方法,该方法实现了语言模型首次在ImageNet基准上击败扩散模型。

后者是一个端到端神经音频解码器。

具体来看VideoPoet的框架。它支持文本、视觉、音频输入,分别可利用t5、MAGVIT V2、SoundStream的编码器。

然后再自回归生成输出。



盗版adobe和正版adobe区别

实验结果方面,在提示词与生成结果的吻合度方面,VideoPoet超过多个扩散模型。



生成动作方面的优势更加明显。



这项工作由谷歌研究带来,作者是两位软件工程师Dan Kondratyuk和David Ross。

据Dan透露,VideoPoet的论文也会马上上线。

参考链接:
[1]https://sites.research.google/videopoet/
[2]https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

2014lol全球总决赛赛程


返回网站首页

本文评论
ai技术助力科技与教育融合发展「AI与科学研究加速融合:AI for Science正在成为科研新范式」
【网易科技4月4日报道】2023浦江创新论坛,百度AI技术生态总经理马艳军表示,在推动AI for Science发展中,企业可以在工程方面提供很好的支持,并在产业链中发挥重要作用,把上下游产...
日期:04-04
欧派电动车为60岁夫妻圆梦 骑行环游中国打卡海南岛
  还记得年少时的梦吗?有一天当你六十岁,你还愿意去实现它吗?   这对六十岁的老夫妻给了一个肯定的答案。六十岁,很多人会说,“老了,折腾不动了,世界还是让年轻人去闯吧。”...
日期:07-16
红土地上的“守望者”_红土地上的这双手
通信世界网消息(CWW)说普通话的人又来了。一群年轻的壮小伙,身穿印着中国结标识的蓝色背心。他们说的话,努木卡听不明白。在这个少有外来人的地方,当地人心照不宣——但凡遇到穿...
日期:10-19
你知道吗?火星上有22个中国地名:西柏坡、古田、窑店等「火星上的地名有哪些」
近日,国家航天局和中国科学院联合发布了我国首次火星探测火星全球影像图。有意思的是,西柏坡等22个中国地名也登上”了火星。其中,22个火星地名中,有西柏坡、古田等革命圣地,窑店...
日期:04-30
知乎Q3亏损锐减39%:付费会员猛增99.5%突破1000万「知乎会员涨价」
11月30日,知乎公布了2022年第三季度未经审计的财务报告,当季营收9.12亿元人民币,同比增长11%,毛利率达到48.7%的行业新高。同时,净亏损环比减少39%,经营性亏损率同比、环比均显著...
日期:12-02
包含nova 9 SE等 华为新一批HarmonyOS 3 Beta版尝鲜机公布
华为官方日前公布了新一批HarmonyOS 3 Beta版尝鲜机型名单,新增7款机型。据介绍,HarmonyOS 3主要在六大方面进行升级,分别是超级终端、鸿蒙智联、万能卡片、流畅性能、隐私安全...
日期:10-10
免费邮件管理工具 Thunderbird 雷鸟 91 正式发布,原生支持苹果 M1 Mac
   8 月 15 日消息 免费邮件收发工具 ThunderBird 雷鸟更新至 91.0 版本,该版本已原生支持苹果 M1 Mac,并默认开启多线程。   Thunderbird 91 只能从官网下载并安装,不能...
日期:11-17
程序员答疑「AI再次“抢饭碗”!程序员问答平台Stack Overflow宣布开掉10%员工」
快科技5月12日消息,近日,知名程序员问答平台Stack Overflow发布公告,宣布将裁员10%。官方并未在公告中直接说明裁员的原因,但就在裁员公告内,该网站就表示将在后续几个月中,推出以...
日期:05-13
2023年,视频号还哪些趋势和机会?「视频号未来的趋势」
声明:本文来自于微信公众号 晏涛三寿(ID:yantao-219),作者:晏涛,授权转载发布。今年春节,中央广播电视总台与视频号二度合作“竖屏看春晚”,超1.9亿用户在视频号直播间观看了央视...
日期:02-09
火星内部核心到底有什么?InSight着陆器揭开了红色星球的秘密_火星有内部吗
火星是我们最想探索的行星之一,但我们对它的内部结构知之甚少。现在,美国宇航局的InSight着陆器给我们带来了一些惊人的发现,让我们能够窥探火星的核心、地幔和地壳。通过分析...
日期:10-28
京东快递全新保价服务“全额保”上线:快件全损全额赔「京东快递保价理赔」
9月29日消息,从京东快递方面获悉,今日,京东快递面向个人寄递场景推出全新保价服务全额保。苏宁易购 30亿官方表示,消费者在寄递物品时购买该服务,可在保价范围内享受足额赔偿,同时...
日期:10-06
接连亮相!微脉「互联网+信任医疗」快车加速驶入中国西南(欢迎进入医疗微服务)
  说起互联网+医疗健康,人们最先想到的通常是一二线城市以及沿海发达地区,大量的优质医疗资源和人才在这里聚集,国内最先进的医疗理念和创新在这里孕育。而在中国的西南地区...
日期:09-14
病毒走投无路!实测360杀毒“3D防御”效果_破解软件360报毒
  不久前360杀毒3.0尝鲜版发布,最引人关注的莫过于“3D防御”。有读者好奇,杀毒软件怎么也3D了?接下来我们就实机评测一番,体验下如今最强悍的立体式防毒效果。   360杀毒V...
日期:07-22
Canalys:2027年将有60%的个人电脑兼容AI功能_ai软件windows兼容性
生成式AI俨然已成科技行业的一个分水岭。Canalys对具备AI兼容能力(简称兼容AI)的个人电脑进行初步的定义,并预计兼容AI的个人电脑在未来四年快速渗透整个市场。Canalys预测,从20...
日期:09-26
2022国庆档首日票房破亿!《万里归途》领跑 评分9.6_国庆档首日票房突破7亿元
今天是国庆假期首日,据灯塔专业版数据,截至10月1日11时54分,2022国庆档首日(10月1日)票房突破1亿。目前,《万里归途》以5672.5万票房领跑,第二、第三名分别为《平凡英雄》1477.6万...
日期:10-02
五一火车票明日开售:五一假期连休5天_五一火车票什么时候出票
4月14日消息,中国铁路官方微博预告,4月15日,旅客可以通过铁路12306网站、铁路12306 APP购买五一假期首日(4月29日)火车票,5月3日火车票将于4月19日开售。 中扬联众公有云今年五一...
日期:04-14
紧盯ChatGPT剽窃风险 欧盟新草案将专注于解决版权问题_欧盟版权法案
草案文本写道,生成人工智能模型的开发者必须公布他们所使用版权材料的“足够详细的汇总”。这意味着,当出版商和内容创作者的作品成为AI生成内容的材料时,他们可以依据这项拟议...
日期:04-28
iqoo12g「iQOO 12系列设计细节公布:百万级设计 价值500万」
全球首批骁龙8 Gen3旗舰即将于11月7日正式亮相,iQOO 12系列便是其中之一。该系列在外观设计上引起了广泛关注,尤其是其背部的摄像头模组独具特色。官方近日公布了iQOO 12系列...
日期:10-28
一级能效是智能家电未来主流!苏宁小Biu首战双十一
  一年一度的双十一早已拉开帷幕,今年智能家电大战尤为火热。近期,各大家电品牌都公布了双十一开门红战报。作为智能家电领域新秀,今年苏宁小Biu首战双十一,其表现如何也令业...
日期:03-03
支付宝捐款多少_支付宝“被捐款” 金额从几角到几十元钱不等
  近日一些网友反映,支付宝(微博)账户“被盗”,向公益基金打款,“被捐赠”为几角到几十元钱不等。对此支付宝公司表示,经与公益机构沟通,将全额退还“被捐款”。   @支付宝:...
日期:07-24