您的位置:首页 > 互联网

AI视频进入有声时代!谷歌发布视频生成音频技术,效果丝滑惊艳网友!

发布时间:2024-06-19 11:33:48  来源:互联网     背景:

声明:本文来自于微信公众号 头号AI玩家(ID:AIGCplayer),作者:左卡,授权转载发布。

Runway前脚刚发布Gen-3Alpha,Google后脚就跟了个王炸。

北京时间6月18日凌晨,Google Deepmind发布了视频生成音频(Video-to-Audio,V2A)技术的进展,可以为视频创建戏剧性的背景音乐,逼真的音效,甚至是人物之间的对话。

V2A技术支持为AI生成视频“配乐”,Google还特别强调了官网发布的Demo视频都是由自家在五月份发布的生成视频模型“Veo”和V2A技术合作打造。

1917 电影票房

有不少网友表示,这下终于可以给用Luma生成的meme视频配上声音了!

从Google Deepmind官网发布的Blog上看,V2A技术会采用视频像素和文本提示来生成与底层视频同步的音频波形。

首先,V2A会对视频和文本提示进行编码,并通过扩散模型迭代运行,将随机噪声细化为与视频和所提供的文本提示相匹配的真实音频,最后再对音频进行解码并与视频数据相结合。

苹果手机如何将微信设置为黑色主题

X网友纷纷表示太赞了,但就是有一个小小小小的问题,和同样是凌晨发布的Runway的视频生成模型Gen-3Alpha一样,这又是一个大家都用不上的超赞模型,到底啥时候开源让咱们试试水!

谷歌pixel安卓8.1与安卓9体验

先不急,我们先尝尝官方发布的Demo咸淡!

Google认为,AI视频生成模型飞速发展,但市面上的大多数模型,不管是Sora、Luma,还是刚刚发布的Gen-3Alpha,都只能生成无声视频。

而Google所研发的V2A技术能够使AI视频进入“有声时代”,进一步推动AI在视听方面的完善与发展。

从Demo视频来看,其效果真的挺丝滑的,怪不得Google“夸下海口”!

比如这个,画面中一个人从前走到后,可以听到令人不安的背景音乐和嘎吱嘎吱的脚步声。

【提示:电影、惊悚片、恐怖片、音乐、紧张感、氛围、混凝土上的脚步声。Prompt for audio: Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete】

诸如此类的视频配乐还有小恐龙破壳的声音、打鼓的音乐声、车流声等等。

【提示:可爱的小恐龙鸣叫、丛林氛围、鸡蛋破裂。Prompt for audio: Cute baby dinosaur chirps, jungle ambience, egg cracking】

【提示:音乐会舞台上的鼓手被闪烁的灯光和欢呼的人群包围。Prompt for audio: A drummer on a stage at a concert surrounded by flashing lights and a cheering crowd】

微软lumia

【提示:汽车打滑、汽车发动机节流、天使般的电子音乐。Prompt for audio: cars skidding, car engine throttling, angelic electronic music】

Google还强调,V2A技术之所以能够在卷得要命的AI视频圈“脱颖而出”,是因为该技术可以理解原始像素,因而哪怕不输入文本提示,只要用户提供视频,该技术也可以为其“配乐”。

例如,下面视频中的吉他声和自行车声是在没有任何提示的情况下合成的。

V2A技术也可以生成人物对话,比如下面视频中角色所说的台词,“这只火鸡看起来棒极了,我好饿啊(this turkey looks amazing, I'm so hungry)”。

不过从视频中看,人物唇形与台词并不完全匹配,因为视频模型不会生成与转录文本相匹配的嘴部动作,Google也承认这一部分仍在研究完善当中。

此外,V2A技术还支持为视频输入生成无限数量的音轨,用户可以选择定义“正提示”来引导生成所需的声音,或定义“负提示”来引导远离不需要的声音。

这种灵活性使用户能够更好地控制V2A的音频输出,从而可以快速尝试不同的音频输出,并选择最佳匹配。

下面三个视频是Google放出的Demo,我们猜测Google是想说明用户可以用不同的文本提示来定向地修改配乐中的一些要素,不过好像不太明显

【提示:一艘宇宙飞船在浩瀚的太空中疾驰,星星从它身边飞过,速度很快,科幻感。Prompt for audio: A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi】

【提示:空灵的大提琴氛围。Prompt for audio: Ethereal cello atmosphere】

【提示:一艘宇宙飞船在浩瀚的太空中疾驰,星星从它身边飞过,速度很快,科幻效果。Prompt for audio: A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi】

虽然该技术还未开源,但从现有的Demo来看,待其开源之时,必将又掀起AI视频圈一阵大风浪。

届时我们估计能看到AI圈“大混战”——Runway的Gen-3Alpha刚生成一个视频,隔壁V2A就给它把音乐配好了;Meme变视频还没玩够呢,用户们已经等不及给它配上声音了。

AI视频圈,到底要“卷”成什么样?!


返回网站首页

本文评论
Windows 10操作系统绝唱了!终极正式版开始强制升级
快科技5月14日讯,继Win1020H2定于5月9日结束服务后,微软日前再度下发通知,21H2版本(Build19044)将于6月13日结束支持。iphone6s谁设计的熊猫墅别墅微软解释,结束支持的意思是不再...
日期:05-14
香飘飘的营收:起起落落落落落落落落落落_香飘飘营业收入
京东智联云,全速推进产业数智化发展手机电视发展图片来源:视觉中国   记者 |李昱茹;编辑 |牙韩翔   曾经的国民奶茶香飘飘营收再一次下跌。   8月12日晚间发布2022上半...
日期:08-16
代表建议将个税起征点提至8000元:董明珠说1万元吧_董明珠:建议个税起征点提高到一万元
2019年1月1日起,我国的个人所得税起征点从3500元提升至5000元,大大降低了中等以下收入人群的税负。就在近日,全国人大代表、盐津铺子董事长张学武提出建议,将个税起征点提升至80...
日期:03-04
1.1鼠标好慢「鼠标性能越好 Win11越卡顿:这锅微软背了」
快科技7月18日消息,对于Win11系统,这一年多来大家的感受是一言难尽,反正时不时就曝出了莫名其妙的bug,7月份的周二补丁日中微软又修复了一个问题玩家如果使用的鼠标性能指标越好...
日期:07-18
华为李鹏:5G-A引领智能世界加速到来_李虓 华为
通信世界网消息(CWW)满眼生机转化钧,天工人巧日争新。孙燕姿线上音乐会回放当前,智能技术突飞猛进、智能化应用日益丰富,人类社会加速进入到All Intelligence(全面智能化)的智能时...
日期:05-16
消息称上海一蔚来试驾车冲进人行道致一死一伤_蔚来上海车展辱骂
2月14日消息,据海报新闻消息,2月3日晚间,上海市徐汇区港汇广场附近发生一起交通事故,一辆蔚来试驾汽车冲上人行道,致行人一死一伤。报道称,该试驾车应属于“蔚来空间港汇恒隆广场...
日期:02-15
华为悬红200万全球求解难题引热议 网友:虽然不会 但是感觉自己亏了
快科技5月26日消息,今日,#华为悬红200万全球求解难题#话题登上微博热搜,引发网友热议。网友纷纷表示:虽然也不会,但是感觉自己亏了 。每个字都看懂了 但连一起就不懂了。浙江方太...
日期:05-26
“通算一体 云智共融” 中国移动无线通算融合技术研讨会召开_中国移动智能融合终端怎么设置wifi
7月14日,中国移动研究院在贵阳召开以“通算一体,云智共融”为主题的无线通算融合技术研讨会在贵阳召开。来自中国工程院、清华大学、上海大学、华为、中兴、亚信科技、新华三...
日期:07-18
vivo天玑1100新机「首款天玑9200旗舰!vivo X90现身工信部:标准版就有120W快充」
第二代骁龙8和天玑9200两款旗舰芯片已正式发布,手机圈又将变得热闹起来,其中拿下天玑9200首发权的vivo X90系列将于11月22日率先登场。日前,一款型号为V2241A的vivo新机在工信...
日期:11-19
腾讯混元大模型正式亮相,2023腾讯全球数字生态大会召开「腾讯 混改」
9月7日,在2023腾讯全球数字生态大会上,腾讯混元大模型正式亮相,并宣布通过腾讯云对外开放。iPhone 12 Pro发售价据了解,腾讯混元大模型是腾讯自研的一款实用级通用大模型,目前已...
日期:09-08
矿卡为什么要卖「2600万张矿卡何去何从?矿工玩家和厂商都头疼,没有谁是赢家」
如果说一张RTX 3080的矿卡卖3000元,那么有没有玩家购买呢?我们估计玩家想必会说疯了吧?按照现在这个行情,我们已经能在4000元的价位上买到全新的RTX 3080,为什么要花3000元去买矿...
日期:09-15
高铁上化妆稳吗「高铁上化妆是不文明行为?官方辟谣:没有规定」
有网友发现,中国铁路官方的一则宣传片中,将在高铁上化妆”列为不文明行为,让人费解。我们对可穿戴设备究竟有哪些期待英文这则宣传片其实7月6日就发布了,标题为《美妆博主”的美...
日期:09-13
华为云写给得到_荐你所想,华为云&英威诺更懂你心
  在这个信息过剩的时代,我们如何在漫天飞的信息中找到自己想听的歌、想看的新闻、想买的商品?此时,要是有一款懂你的智能推荐引擎就好了,想你所想,急你所急。   其实个性...
日期:08-07
董明珠:希望2024年给国家税收超200亿 企业纳税越多生命力越强_董明珠建议个税起征点提高至1万元
快科技1月29日消息,董明珠公开表示,2023年是格力电器成立33年来取得最好成绩的一年,2023年税收创造历史新高,并且希望2024年给国家的税收超过200亿。在董明珠看来,创新是企业的生...
日期:01-29
Intel与TCL华星战略合作升级 深度共建IT显示产品生态
2023 年 5 月 30 日,TCL华星与Intel战略合作交流会顺利举行。此次会议由TCL华星联合Intel共同举办,Intel全球执行副总裁、首席商务官Christoph Schell,Intel市场营销集团副总裁...
日期:05-31
马斯克 vr「马斯克旗下公司Neuralink正开发一款能解决失明问题的视觉芯片」
11月8日 消息:马斯克的公司Neuralink正致力于开发一款能够解决失明问题的视觉芯片,该芯片将能够帮助失明人群“看见”。Neuralink计划在未来几年内发布这款芯片,并正在等待监...
日期:11-10
字节跳动的“薛定谔上市”
  来源:北京商报  “跑得快最重要”,张一鸣还担任字节跳动CEO时曾说过这样一句话。这句话在一定程度上贯穿了字节跳动的十年,从成立时的籍籍无名,到算法为王站稳脚跟后的疯...
日期:09-27
挡不住中国芯片,美国又要对底层架构下手?_美国对中国芯片松手
最近,多位美国政客打着“国家安全”的旗号,向拜登政府施压对RISC-V进行管制。RISC-V,是什么?对中国芯片产业发展有什么影响?小伙改装电脑大家都知道,计算机运行需要程序,程序是由一...
日期:10-13
推特拒付近20万美元包机款被起诉 当时的负责人已被裁
12月13日 消息:私人飞机服务集团(PJS)上周五起诉埃隆·马斯克领导的社交媒体推特公司,称该公司违反合同,一直拖着未支付两次航班的费用,总额达20万美元。据称,推特前首席营销官莱...
日期:12-13
microsoft outlook 2010启动_微软 Win11/Win10 新版 Outlook 应用曝光,全新设计与动画
  8 月 9 日消息 适用于 Win11 和 Win10 的 Outlook 近日曝光,将于明年取代现有的 Outlook 应用,预计将在未来几周内推出公开预览版。   微软已经确认将在 Windows 上统...
日期:07-17