您的位置:首页 > 互联网

李飞飞携斯坦福联袂谷歌推出比肩Pika的视频生成模型W.A.L.T

发布时间:2023-12-12 23:50:05  来源:互联网     背景:

要点:

  • 谷歌与李飞飞的斯坦福团队合作推出了基于Transformer的视频生成模型W.A.L.T,在图像和视频生成领域取得了媲美Gen-2的逼真效果。

  • W.A.L.T采用因果编码器和基于窗口注意的变压器架构,将图像和视频压缩到共享潜在空间,实现联合训练和生成,为自然语言提示生成逼真且时间一致的视频。

  • 通过两个关键决策,W.A.L.T成功解决了视频生成建模难题,采用潜在视频扩散模型,利用Transformer处理潜在空间,实现了在多个基准测试上的SOTA性能。

12月12日 消息:近日,谷歌与李飞飞的斯坦福团队携手推出了基于Transformer的视频生成模型W.A.L.T,标志着2023年成为AI视频元年。该模型利用因果编码器和窗口注意的变压器架构,成功将图像和视频压缩到一个共享的潜在空间,实现了联合训练和生成。这一创新性的模型不仅在已建立的视频和图像生成基准测试上取得了SOTA,还展示了在文本到视频生成任务中的卓越性能。

论文地址:https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf

W.A.L.T的两个关键决策使其在视频生成建模中脱颖而出。首先,因果编码器用于在统一的潜在空间内联合压缩图像和视频,实现了跨模态的训练和生成。其次,基于窗口注意的变压器架构提高了记忆和训练效率,使得模型能够生成逼真且时间一致的视频,响应自然语言提示如"一只泰迪熊在时代广场上优雅的滑冰"。

该模型的突破性在于解决了视频生成建模的难题。传统方法主要采用U-Net架构,而W.A.L.T则采用潜在视频扩散模型,通过在低维潜在空间中运行自动编码器,降低了计算需求。这一设计选择不仅优化了网络复杂性,还让Transformer在视频生成领域表现出卓越的质量和参数效率。

W.A.L.T的出现标志着视频生成进入一个新的时代,突破了传统模型的限制,为AI视频技术带来了更为广阔的发展空间。李飞飞与谷歌的合作成果彰显了Transformer在不同领域的广泛适用性,为模型设计创新和改进带来了新的契机。在视频生成建模方面,W.A.L.T以其卓越性能和创新性设计成为当前研究的焦点,为学术界和工业界提供了有力的参考和启示。

小红书营销定位

智能行李箱能上飞机吗


返回网站首页

本文评论
京东辟谣“刘姓商人被抓”,港股今日下跌12%创上市新低,评级被下调
微信如何恢复删除好友恢复出品|科技作者|汉雨棣京东发言人10月13日发文称,“我们关注到有谣言称“刘姓商人涉嫌违法被抓”,该谣言被别有用心的人刻意发布在京东相关新闻动态下,以...
日期:10-16
愿意在训练数据方面更开放 OpenAI据称支持发牌批准AI系统开发
北京时间7月21日早间消息,据报道,OpenAI起草的一份互联网政策备忘录显示,该公司认为应当要求所有想要开发先进人工智能的公司必须获得政府支持。这份文件还透露,该公司愿意公开...
日期:09-20
油炸知了成网红美食 实地探访:金蝉价格10年涨5倍,千人上山抓蝉有人月入数千
知了,又名蝉、金蝉,属于半翅目蝉科昆虫。夏天走在山间小路上,耳边“知了、知了”的鸣音此起彼伏,常有几分“蝉噪林逾静”的野趣。但今年夏天,知了“声”起,原因令人意想不到——...
日期:08-11
革命性技术改变游戏规则-利大于弊 盖茨再次力挺AI_革命性变革案例
近日,微软创始人比尔·盖茨接受美国广播公司(ABC News)采访,谈到了他对人工智能(AI)的看法,以及AI对世界未来的意义。得益于对聊天机器人ChatGPT开发公司OpenAI的投资,微软目前在生...
日期:09-29
爱立信携手三大运营商,圆满完成又一项世界级赛事通信保障「爱立信iru」
通信世界网消息(CWW)昨夜,第31届世界大学生夏季运动会正式闭幕,“天府之国”用一场青春盛宴,为全球青年留下了恒久的青春记忆......用烤箱烤鸡翅要用锡纸吗零重大网络故障零重大...
日期:08-10
扎克伯格偷袭马斯克!Meta发布Threads社交App:对标推特_扎克伯格的社交软件是啥
快科技7月6日消息,最近一段时间,马斯克的推特大乱,因为平台被大数据抓取,马斯克通过限制推特用户浏览量来防止AI公司偷数据,如果想多看只能花钱开通Twitter Blue,此举被众多用户吐...
日期:07-06
无糖奶茶热量高吗「别被骗了!无糖奶茶也是高热量饮品」
今日消息,微博话题”无糖奶茶为什么是高热量饮品上了热搜,引发网友热议。有网友表示,”无糖只是没糖,里面的料是一点没少,纯纯的高热量、”一定要做到理性喝奶茶、”奶茶都是高热...
日期:11-26
sony2021新品「与追梦者共创感动」,索尼 “Sony Expo 2023”举办 「激发灵感与热情」
5月25日-28日,索尼将在上海举办大型品牌活动“Sony Expo 2023”,以“奇境漫游”为主题,全面展示索尼在华电子、音乐、动画、游戏、影视、技术研发、可持续等业务亮点与发展现状...
日期:09-17
微软、谷歌、Meta集体惨淡!美科技巨头最新季度财报“地震”_美国谷歌股价
  [环球时报驻美国特约记者 张思思]美国科技巨头最新季度财报表现集体惨淡。微软、谷歌、Meta相继发布的财报显示,这3家科技巨头的业绩表现相较于二季度继续恶化。360杀毒...
日期:11-02
谷歌ai智能系统「谷歌和微软联手培养AI未来:推出面向初学者的入门课程」
要点:佩奇谷歌创始人谷歌和微软近期发布了针对初学者的人工智能(AI)入门课程,分别与Raspberry Pi基金会和OpenAI合作,致力于从儿童时期培养对AI的兴趣和理解。谷歌的课程名为Exp...
日期:11-27
三星galaxy z flip 5g评测「三星Galaxy Z Flip5比你想象的更有内涵 坚持可持续设计理念」
来源:中关村在线机箱装主板当时尚不再拘泥于外在,而是转向深层次的生活方式时,更多设计理念得到了大家的关注。随着全球可持续发展的不断深入,智能手机如何透过环保视角,向消费者...
日期:10-15
QQ2011beta3新增朋友:社区细分关系功能化
距腾讯公布的Q+平台开放的时间越来越近,腾讯于近日推出QQ2011Beta3体验版,对于此次QQ2011Beta3体验板中“校友聊天”和“好友推荐”这二种功能的增加,使腾讯朋友融进了QQ。有...
日期:07-30
这里是全球最赚钱的市场,也是最封闭的市场(全球最大的市场是什么市场)
  ;郑峻   网购人肉中国手机   Shubham;Mazumdar是硅谷洛斯阿尔托斯(Los;Altos)一名小有名气的医生。在工作之余,他的最大爱好就是数码设备,尤其是玩各种不同的智能手机,...
日期:08-17
幻景游戏配置要求公布-最高6GB显存 刺客信条
来源:中关村在线近日,育碧公布了其新作《刺客信条:幻景》的游戏配置要求。育碧确认,该游戏将支持英伟达的DLSS、AMD的FSR和英特尔的XeSS采样技术。据推文,当采用英伟达RTX 4070 T...
日期:09-24
Zynga联手Lucasfilm 提升品牌影响力吸引用户
【搜狐IT消息】北京时间9月17日消息,据外国媒体报道,Zynga已经签署了大量与品牌相关的交易,以此来帮助其社交游戏产品吸引更多的用户,这也是Zynga推广社交游戏产品的重要战略之...
日期:07-23
跟比亚迪海豚拼了!大众ID.3低至12万冲量放价 美女销售:快买
快科技7月6日讯,今年的新车市场竞争异常惨烈,一边是燃油车各种降价,另一边新能源车型不断上新。今日,汽车博主吴佩分享称,大众纯电动两厢轿车ID.3推出7月限时重磅正测,指导价16288...
日期:07-07
比特大陆斥资7亿买Dash,究竟看中了啥?
《比特大陆斥资7亿买Dash,究竟看中了啥?》文章已经归档,不再展示相关内容,下文是的自动化写作机器人,通过算法提取的文章重点内容。这只AI还很年轻,欢迎联系我们帮它成长:Dash最高...
日期:08-02
新一轮美芯制裁30天生效!英伟达一脸懵,英媒:中国芯片厂商获益
自从华为Mate60系列发布后,华为就成了“众矢之的”,外国调研机构几乎把华为Mate60系列拆得个“底朝天”,啥也不剩。但遗憾的是,美国并没有在华为Mate60身上找到自己想要的结果,只...
日期:10-22
苹果钓鱼执法:爆料iOS 17“内鬼”被抓「苹果钓鱼网站怎么解决」
因为超高的关注度,关于苹果系统、产品的最新消息,都会有大量科技爱好者跟进。但出于产品保密需求,内部爆料人士,也是苹果公司打击的对象。日本制造业占比郭明錤苹果15预测而最近...
日期:05-11
热钱卷进手打柠檬茶,一斤香水柠檬从5元涨到30元
  文|韦雯;编辑|彭孝秋  来源:36氪  越来越多的人快“喝不起”柠檬茶了。  即使在大街小巷都遍布手打柠檬茶店的广东也不例外。事实上,想在广东喝一杯正宗的手打柠檬茶,...
日期:08-30