您的位置:首页 > 互联网

ai 写歌「几句话就能写歌,还能模拟各种音效,Meta发布开源AI工具」

发布时间:2023-08-05 07:44:14  来源:互联网     背景:

本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。



编译|周炎

中兴axon 40ultra对比小米mix4哪个好

编辑|云鹏

智东西8月3日消息,今天,Meta发布了一款开源AI工具AudioCraft,该工具可以帮助用户根据文本提示创作音乐和音频。

Meta称,这款开源AI工具综合使用了AudioGen、EnCodec和MusicGen等大模型,不仅可以生成各种模拟音频效果,还能减少音损。用户使用该AI工具,可在输入文本内容后,生成高质量、逼真的音频和音乐。

目前来看,由于生成任何类型高保真度的音频都需要对不同尺度的复杂信号和模型进行建模,音乐在某种程度被看作是最具挑战性的音频类型。Meta通过自我监督音频表示学习的方式(self-supervised audio representation learning)以及许多分层或级联模型(hierarchical or cascaded models)来生成音乐,这样将原始音频输入到系统中,就可捕获信号中的远程结构(long-range structures),同时生成音频。

与此前的AI工具相比,AudioCraft背后的模型经过授权音乐库的训练,避免了版权风险;其次,由于接受公共音效训练,它可以生成包括狗叫、脚步声在内的各种模拟音效;最后它简化了音频生成模型的整体设计,同时开源的形式也有助于其他人开发自己音乐模型。但目前来看,AudioCraft仍然代替不了人类生成复杂且优秀的音乐作品。

01.

经2万小时授权音乐训练,

压缩文件大小比MP3格式小10倍

从目前Meta的介绍来看,Audiocraft背后使用三种模型中,MusicGen接受过Meta拥有的和特别授权的音乐库进行训练,可以从文本提示生成音乐。

今年6月初,这个名为MusicGen的开源AI模型由Meta推出。据悉,这是一种深度学习语言模型。它接受了2万小时的音乐训练,其中包括大约40万个录音、文本描述及元数据等。



▲AI模型MusicGen背后的论文基础,来源:Meta AI博客

此外,另一款模型AudioGen接受过公共音效训练,可从文本提示生成音频,比如模拟狗叫或脚步声。从Meta的介绍来看,AudioGen是一个来自Meta和耶路撒冷希伯来大学的研究团队的AI模型,可以通过输入文本来生成音频,亦可以扩展现有音频。AudioGen可以区分不同的声音对象,并在声学上将它们分开。



▲Meta展示AudioGen文本转音频效果,来源:Meta AI博客

最后要说的就是EnCodec编解码器,此前,由于需要对原始音频信号中极长的序列进行建模,原始信号生成音频对研究人员来说存在巨大挑战。以一个几分钟的音乐曲目为例,它在通过44.1Hz的标准质量采样后,会形成数百万个时间步(timesteps)。

相比之下,在Llama和Llama 2等大模型的加持下,用户输入的文本可被处理为子词(sub-words),这样每个样本仅会产生几千个时间步。

因此,Meta团队使用基于深度学习的音频编解码器(neural audio codec)EnCodec,该编码器由AI驱动,可以从原始信号中学习离散音频标记(autoregressive language models),从而为研究人员提供了音乐样本的新固定的“词汇”(vocabulary)。研究人员可以在这些离散的音频标记上训练自回归语言模型,最后,研究人员可使用EnCodec的解码器将标记转回音频空间时生成的新标记及新音乐。



▲编解码EnCodec背后的论文基础,来源:Meta AI博客

据悉,EnCodec可以在音频质量没有损失的前提下,将音频压缩到比MP3格式还要小10倍的程度。这主要得益于EnCodec中带有残差矢量量化瓶颈(residual vector quantization bottleneck),该瓶颈可以生成多个具有固定词汇的并行音频标记流,由于不同的标记流可以捕获不同级别的音频波形信息(audio waveform),所以研究人员可从所有音频流中重建高保真度的音频。

02.

推动模型开源,

AudioCraft生成复杂音乐仍存困难

Meta在公告中还演示了MusicGen和AudioGen工作的流程图,并表示将让这些模型开源,让研究人员和从业人员可以用自己的数据集训练适合自己的模型,并帮助推进人工智能生成音频和音乐领域的发展。

ai智能写歌app



▲MusicGen和AudioGen工作的流程图,来源:Meta AI博客

与其他音乐模型相比,AudioCraft系列模型不仅能够生成长期一致的高质量音乐和音频,还简化了音频生成模型的整体设计,使得该工具简单易用。Meta认为,MusicGen可以变成一种新型的乐器,就像最初出现的合成器一样。

当然,Meta也指出,使用AudioCraft创作复杂而又优秀的音乐还是比较困难的,因此它选择将AudioCraft开源,以使用于训练它的数据多样化。

今年早些时候,谷歌也发布了名为MusicLM的音乐生成模型,并于5月向用户开放。今天,Google Labs还在官网中介绍了知名音乐家Dan Deacon正在使用该模型创作音乐。除此之外,目前比较常见的音乐模型还有Riffusion、Mousai和Noise2Music等。

03.

结语:巨头“押注”音乐大模型,

音乐创作或受到影响

从目前的公告信息来看,AudioCraft不仅可以根据用户的文本提示生成音乐,还可以对音频进行无损压缩。同时开源的形式也有助于更多人参与相关音乐模型的构建,从推动更高质量的音乐创作的生成。

随着,Meta和谷歌两大巨头“押注”音乐大模型,音乐的创作或受到生成式AI影响。但正如Meta所指出的,生成式AI生成复杂的音乐还有很长的路要走。


返回网站首页

本文评论
蚂蚁链牵头两项区块链国际标准在ITU成功立项_国家区块链标准委员会
11月18日 消息:近日,国际电信联盟第十六研究组(简称ITU-T SG16)召开全体会议。会上,由蚂蚁链牵头的两项区块链国际标准获得立项通过。包括:ITU-T H.DLT-SCLMR “Smart contract...
日期:11-20
微信变成QQ_微信 / QQ即将完成改造
  (原标题:微信/QQ即将完成改造:腾讯将进入IPv6用户最多企业行列)   2019年1月7日,腾讯云宣布全生态推进IPv6战略。中国电信、中国移动、中国联通系数到场支持。   为此...
日期:05-27
米哈游 50亿「10亿人生活其中 米哈游2030年将打造出元宇宙产品」
最近几年,米哈游推出的《原神》在全球都备受推崇,不仅吸金能力堪比《王者荣耀》,也让米哈游一跃成为游戏巨头,现在该公司有了更远大的目标,希望在2030年前打造出具有世界影响力的...
日期:01-12
把豆浆卖成宵夜,90后小伙借力收银管理400多家门店_我是晚上卖豆浆的生意人
  亮黄文艺的招牌,简洁风的桌椅,拐角处的驻唱台,门店的主角却是最常出现在国人早餐桌上的豆浆油条。小田豆浆创始人杨青山打趣道:“我是个90后,习惯夜生活早上起不来,所以就把...
日期:05-21
sonyc「索尼CTO回应ChatGPT:不会开发践踏创作者权利的图像生成AI」
IT之家 2 月 24 日消息,在以“ChatGPT”为首的 AI 代表震惊全球后,人工智能的演进已经逐渐迈入了一个新的阶段。在 ChatGPT 爆火之后,微软将开放人工智能技术引入其搜索引擎,谷...
日期:02-25
小米11京东优惠「热门旗舰立省1000元,小米手机11.11优惠一图看懂」
中关村在线消息:双11期间想买旗舰手机的朋友注意了,小米热门旗舰手机有优惠了,最高立省1000元,至高支持24期免息分期,快来看看有没有你喜欢的型号——苹果a15的单核和多核天梯图...
日期:11-06
鸿蒙OS 3新版发布 华为Mate 50流畅度大增「华为5g鸿蒙」
日前,华为向Mate 50系列推送了鸿蒙OS 3.0.0.302版本更新,此次更新优化了系统性能和部分场景操作,并优化了部分应用的使用体验。更新302版本后,华为Mate 50系列调度达到P60规格,。...
日期:05-06
MediaTek发布天玑1080移动平台,加速5G终端推向市场「MediaTek MT6873 5G(天玑800)」
2022年10月11日,MediaTek天玑系列5G移动平台再添新成员——天玑1080,性能和影像功能更为出色。天玑 1080提供了多项关键技术升级,以MediaTek先进的硬件和软件技术,助力终端厂商...
日期:10-13
三翼鸟暖通亮相ISH,3大优势行业引领
  当前,节能低碳已成为暖通行业的主要趋势。为此,各大品牌也纷纷切入多能源技术领域,力求在低碳发展中取得先机。但究竟哪个品牌在这个领域做的更好呢?携最 新场景方案与产品...
日期:05-12
Radeon RX 6000M「AMD 展示 RX 7000 系列显卡:RDNA3 架构,每瓦性能提升 50%」
IT之家 8 月 30 日消息,AMD 今日正式发布了锐龙 7000 系列处理器,同时,AMD CEO 苏姿丰展示了即将到来的RX 7000 系列显卡。iqoo8机型如果美国将对华出口管制程度降低到法国水平...
日期:09-08
蔚来es6最新款「高端中型SUV天花板 蔚来全新ES6上市:36.8万起」
5月24日晚间,蔚来汽车全新ES6正式发布上市,新车共推出2个配置车型,售价分别为36.8、42.6万元。如果按电池租赁模式,在支付29.8万元后,根据电池不同,月费为980/1680元。蔚来CEO李斌...
日期:05-25
GitHub Octoverse报告:平台拥有9400万开发人员 HCL语言增长最快
11月16日 消息:近期,GitHub 发布了2022 Octoverse 报告。报告显示,JavaScript、Python、Java、TypeScript 和 C# 是 GitHub 项目中使用最广泛的编程语言。根据报告, GitHub 上...
日期:11-17
Google Chrome 正式删除下载栏,引入新的托盘用户界面「谷歌浏览器怎么删除下载文件」
8月4日 消息:多年来,用户在 Chrome 中下载的文件都会显示在底部的下载栏中。然而,谷歌现在正在改变桌面版 Chrome 的用户界面,将下载栏替换为托盘。通过与用户进行交流,谷歌发现...
日期:08-04
为员工送汤圆、买鸡翅,原来李彦宏你是这样的老板
  年末马上到了,各位小伙伴们准备好收年终奖了吗?现在距离发奖金还有点时间,不如趁着空档,先看看那些“别人家公司”的福利,权当热身啦!   说到“别人家公司”,百度肯定榜上...
日期:10-02
索尼手机 xperia 5「安卓小屏之王!索尼Xperia 5 V曝光:无刘海无挖孔」
快科技7月26日消息,索尼Xperia 5 V宣传视频在社交平台上被泄露。如图所示,Xperia 5 V正面是无刘海、无挖孔的对称式全面屏设计,尺寸预计在6英寸左右,女生单手轻松掌控,是安卓阵营...
日期:07-26
谷歌 Chrome 100 浏览器发布_谷歌浏览器50版本
  ITBEAR科技资讯3月30日消息:谷歌Chrome浏览器今天在Mac、Windows、Android和iOS平台已更新版本号为100的最新版本。谷歌Chrome浏览器的版本号现在终于达到了3位数。  ...
日期:07-18
海底捞抄底,内伤两年
海信冰箱高端   又是大亏,还在填坑。   记者丨李惠琳 方文宇;编辑丨鄢子为   杨利娟挂帅165天后,海底捞第一份成绩单出炉。   8月14日,海底捞发布盈利预警,上半年至少亏...
日期:08-16
抖音外卖是抖音官方推行的吗「抖音否认“3月1日全国上线外卖服务”计划」
2月8日 消息:2月7日晚,一则有关抖音将于3月1日全面上线外卖的消息引发了社会关注,并一度冲上热搜。不过,据新京报报道,抖音内部人士表示并没有“3月1日全国上线外卖服务”的计划...
日期:02-10
斗鱼第二季度营收18.3亿元 净利润2350万元(斗鱼上半年营收)
查看最新行情   讯 北京时间8月15日下午消息,斗鱼(Nasdaq:DOYU)今日发布了截至6月30日的2022年第二季度财报。财报显示,斗鱼第二季度总净营收为18.332亿元...
日期:08-17
三星S23 Ultra发布:2亿像素主摄 强大影像系统
在凌晨2点,三星正式发布了S23系列年度旗舰手机,在系列中的“超大杯”三星S23 Ultra手机此次有着2亿像素主摄,而且还搭配了全新的大底以及ai算法。网易云 云村此次的发布会直播,...
日期:02-02