您的位置:首页 > 互联网

国内首款AI音乐大模型一曲封神!核心技术业内首公开,爆改霉霉周杰伦效果惊艳

发布时间:2024-04-11 22:49:51  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】国内首个音乐ChatGPT来了!提前试用天工SkyMusic后,整个编辑部暴风式哭泣:它改编的周杰伦和凤凰传奇简直封神。团队选择了一条少有人走的路,他们赌赢了:比OpenAI提前押中了Sora架构,并且首次在业内公开技术图。

最近几周的震撼,是Suno给的。

重磅升级的Suno V3,不断有刷屏全网的神曲诞生,让全世界为之疯狂。

谁能想到,音乐的ChatGPT时刻,竟然就这么来了。

圈内所有人都在讨论:这一波,音乐产业没准要被AI一锅端了。

国内首款音乐AI来了!

这不,就在上周,国内首款AI音乐生成大模型天工SkyMusic也正式开启内测了!

各路大神已经开始在首页秀创作了

没有灵感怎么办?产品页面甚至为你配备好了灵感话题。

试玩一番后,小编再次体会了一遍,当初Suno给人的那种惊艳感。

初体验:一秒梦回80年代,人声以假乱真

比如这首《古韵悠长》,清亮的女声一开口,瞬间梦回80年代,是我妈跳广场舞的那个feel了。

这首《爱是幸福》,更是好听到让小编惊掉下巴。旋律朗朗上口,歌词隽永又令人无限回味,细听有一股蔡健雅的味道。

除了歌曲整体的音乐品质非常高,极具欣赏价值之外,天工SkyMusic的最大亮点之一,就是它清晰逼真的人声。

要知道,人声合成,是AI音乐生成中最重要、最能体现生成效果和品质的维度。

而天工SkyMusic的AI人声合成,能够产生中文水平极高、发音清晰的歌声,展现出卓越的音频质量和逼真的演唱效果,已经达到业内SOTA水平!

在这方面,天工SkyMusic可是爆杀了几个外来大模型。他们在中文发音上,简直是惨不忍睹没眼看。

比如Suno的这首《宫保鸡丁》,唱起中文歌来也是老外说中文那味儿。

可见,要想做中文歌,还得看咱自己的音乐大模型!

可控性,音乐人的专业指标

接下来,我们就得上一些专业指标了。

歌词段落

一首歌为什么能够爆红全网,火遍大江南北?

从流行音乐的角度,它需要有强烈的旋律、鲜明的节奏、多彩的和声、激昂的情感。

因此,想要做出一首抓耳的流行歌,不同歌词段落间微妙的情绪变化,就是一个很关键的点。

而天工SkyMusic在这方面,就格外擅长——

它能通过歌词来控制歌曲,体现出主歌和副歌、前奏和主歌的段落差异。

比如这首《龙行龘龘》,开头悠扬的女声民歌和激昂扬的男女声对唱部分形成鲜明对比,一首大气磅礴的国风歌曲浑然天成。

风格

在风格控制上,它可以参考指定音频,学习特定特定的曲风。

它创作的这首《飞翔鸟》,听起来非常像学习了许巍的民谣风。

自动前奏、间奏、尾奏

音乐制作人时常面临的一个问题是,已经有了合适的歌曲,但缺少前奏和尾奏,绞尽脑汁也找不到合适的。

这时候,就可以找天工SkyMusic帮忙了。它补充完整的这首《Guitar》,慵懒随意的唱腔搭配恰到好处,听起来非常治愈。

和声

根据歌词描述,天工SkyMusic给这首《水调歌头》自动添加上了和声。

几个男声的和声和主唱的音色十分契合,再结合节奏鲜明的鼓点,一首旋律激昂大气的国风《水调歌头》就这样诞生了。

歌词技巧

而且,模型还可以参考音频的特征,智能地学习演唱技巧。

比如这首歌剧版的《我的滑板鞋》,就演绎出了别样的风味。

王者荣耀、周杰伦、凤凰传奇,你想要的它都有

时下的流行icon,怎么和流行音乐融合?如果找对了叩击大众心弦的那个点,抖音神曲并不是一件难事。

天工SkyMusic,让这一切都成为可能。

输入带有结构的歌词+参考音频,就能把自己玩王者荣耀的体验写出一首歌了:我真的气死了,skr skr~

我今天打开王者荣耀选赵云

开局后我走到哪里都被爆杀

我真的气死了只能躲在草丛

或者,我们还可以根据已有的歌词进行二创。

比如输入《彩虹》的歌词,再录一段《最长的电影》主歌和副歌30s的音频做参考,两首歌生出的一首新歌就诞生了:

听得出来,部分旋律还是有可圈可点之处的。

再用蕾哈娜的《Diamonds》的词,配上霉霉维密秀震撼神曲《See You Again》试试?

出来的混血女声英文歌是这样的:

AI版Diamonds,新智元,54秒

唱腔控音极好,高低音转换流畅,其中几句的多处转音颇为神奇,值得细品。在人类作曲家中似乎很少听到这么鬼才的旋律组合,这就是来自AI的巧思吧。

而且非常神奇的是,歌曲的唱腔忽然就变得像蕾哈娜了,跟霉霉的嗓音并不像。

接下来,让我们来爆改一下凤凰传奇的《最炫民族风》,不过跟刚才不同的是,这次输入的都是原歌词和原曲,让它自我整改一下。

出来的,是另一种感觉的广场舞神曲。

不仅如此,我们甚至还可以把突发的热点事件,分分钟变成一首爆款潜力股。

说唱版热梗高速运转的机械了解一下:

那么,天工SkyMusic是怎么做到如此惊艳的效果呢?

为此,我们最近特地找到初创团队的大佬聊了聊。

走少有人走的路

MIDI or 音频?破釜沉舟

相信大家心里都有一个疑问:怎么以前没有好听的音乐AI,最近才扎堆冒出来呢?

当然是因为——它非常难!

好的AI音乐难做,一个原因是此前主流的符号派(MIDI)技术效果太差;还有一个原因,就是过往的音乐AI基本都在无人声的BGM领域,有人声的Song要么做不出来,要么效果也是很差。

一首歌有人声和无人声的吸引力程度差别有多大,不言自明。

具体来说,AI音乐生成有两大主要技术路径,符号派、大模型派。

符号派以MIDI为主流。MIDI全称Musical Instrument Digital Interface,本身不包含音频文件,而是记录音乐演奏的指令,比如哪个音符被播放、音量是多少、音符持续的时间等。

因为不能直接生成歌曲,后期还需加上乐器、旋律、音色、人声。

第二条大模型音乐音频生成路线,能够直接学习并生成音频波形,乐器、人声、旋律、音量、音符都是一体化端到端生成。

符号(MIDI)方向的研究,学界有很多,然而效果却很差;大模型音频方向则极难,做的极少。

面对两条路线,选哪个呢?

立项之初,公司内部就面临着这一艰难的选择。前者效果不好,后者则极有可能会做不出来,整个项目鸡飞蛋打。

最后,天工SkyMusic研发团队经过投票,一致决定选择音频方案。大家公认:宁愿冒着巨大风险,也要做出真正好的AI音乐。

幸运的是,他们成功了。

注意,下面你看到的这张图,可谓价值连城。

SkyMusic核心技术架构

因为,目前市面上没有任何可用的AI音乐大模型企业,公开过自己的技术路径,包括Suno。

ChatGPT出来后,LLM百花齐放,这是因为有无数开源项目可以参考。

但音频路线+人声Song路线,没有任何公开资料可参考,天工砸进去数不清的研发资源和算力算法投入,才摸索出了上面这张极其宝贵的路径图。

该踩的坑,团队都已经提前踩过了,而如今这个可复现的方案,也被他们慷慨贡献了出来。

而且巧合的是,虽然最终的框架与Sora类似,但其实在研发的时候Sora还没诞生呢。

只能说,英雄所见略同。

谈一谈音乐

在类Sora架构中,Large-scale Transformer负责谱曲,通过学习Music Patches的上下文依赖关系来控制音乐结构和风格。

这样,就完全实现了对风格的掌控。

而Diffusion Transformer则负责演唱,也即声音的生成和渲染,通过LDM技术,将Music Patches转换为高质量音频输出,因此音乐具有清晰的风格特征和音质表现。

当AI开始学习情感

而如果我们仔细听上面的作品,就会感觉到:天工SkyMusic对于音乐情感的捕捉极为细腻。

它生成的音乐,仿佛有着丰富的情感脉络,和一种动态的变化。

正是这种对于情感表达的强化,让它的作品能够根据歌词和音乐元素,生成不同情感氛围的作品。

相比于以往侧重于智力提升的AGI模型,它的情感AGI路线,则显得尤为珍稀和宝贵。

因为,它不仅是一个聪明的AI,还是一个努力去理解和模拟人类情感、用音乐去表达情感的AI。

跟市面上那些侧重旋律创作、学习大量乐段的旋律,或是深入和弦、节奏、编曲层次的AI相比,天工SkyMusic的情感维度,也成为它在行业中的差异化亮点。

比Suno和Stable Audio2.0强在哪儿

与市面上Suno等AI音乐工具相比,AI音乐生成大模型天工SkyMusic有着独特的优势。

它背后采用的,是基于MoE架构的4000亿级参数多模态超级大模型天工3.0。

在业界领先的逻辑推理、语义理解和泛化能力的加持下,天工SkyMusic的响应速度和训练推理效率,也得到了极大地提升。

首先在中文上,天工SkyMusic的AI人声合成极为优秀,发音清晰、无异响。

特别是,得益于在中文语境中的深度优化,其在中文演唱效果上,更符合中国市场的需求。

其次,在音乐风格上,天工SkyMusic更略胜一筹。

它能够通过歌词控制情绪变化,并实现如颤音、歌剧、吟唱等多种歌唱技巧,使生成的音乐作品,情感更加丰富且贴合情境。

此外,天工SkyMusic还支持创作说唱、民谣、放克、古风、电子等多种音乐风格,用户可以根据个人喜好定制音乐风格。

不过,不仅仅是天工SkyMusic,包括Suno等AI工具,都距以假乱真的专家音乐水平相对较远。

因此,这也是昆仑万维决定将其技术架构公开,希望业界一同推动这一领域发展的原因。

AI不会取代音乐人

天工SkyMusic、Suno之外,近几天另一个堪称Sora版的神秘音乐模型Udio,也引发了全网关注。

拿到测试资格的网友,纷纷表示Udio音乐生成强太多了,甚至让人感受到了AGI的力量。

难道AI已经真的到了,能够取代人类音乐歌手的地步了吗?

原创,真的已经不再重要?

显然都不是。

AI音乐生成技术的快速迭代,无疑正在改变音乐创作的方式和体验。

但,这并不意味着AI会完全取代音乐人,或让原创变得不再重要。

相反,AI音乐生成技术与音乐创作者,可以相辅相成。

一方面,强大的AI可以降低音乐创作的门槛。

即便是非专业人士,也拥有机会接触音乐,创作出有一定水准的音乐作品。

这将极大地拓展音乐创作者群体,激发多元的音乐形态和跨界合作。

另一方面,如天工SkyMusic这样的工具可以赋能音乐创作者。

它们可以通用简化旋律原型生成、提供创意灵感、协助制作高质量伴奏等创作环节,帮助音乐人提高创作效率。

昆仑万维董事长兼CEO方汉曾在采访中说过这么一句话:

在内容生产行业,有这么一条规律:如果内容制作门槛降低1倍,那么内容创作者的创作数量将会增加10倍。

因此,当音乐创作门槛降低之后,就会有更多的人成为原创音乐人。

总而言之,若以静态的角度看待行业,许多人会认为,AI音乐的出现切走了音乐行业的蛋糕。

但动态地来看,技术的进步能够让音乐市场越来越大,行业蓬勃发展,孕育出全新的内容生态、音乐业态。

比如,按需定制音乐服务、在线音乐创作工具订阅等新的商业模式,可以为音乐产业带来新的消费增长。

当前,国内许多音乐平台都为Suno AI做了专栏,直接解锁了一把新的流量密码。

而面向教育,AI音乐创作可以帮助我们快速感知音乐创作原理,尝试多种音乐风格创作,为音乐产业培养孵化新一代人才。

让每个人更好表达自我

更宏观地讲,除了图片、视频、AI音乐也是通向情感AGI路上的一个重要的组成部分。

音乐,不仅是一种艺术形式,更是情感交流和表达的方式。

而且,音乐更能触及人的情感深处,是情感表达的重要媒介。

针对AGI开展的研究中,许多团队都将重点放在模型智力的扩展与增强上。

而真正的AGI的终极目标是——更像人,兼具感性理性、推理逻辑思维,以及情感理解等能力。

京东集团现金比率

正是意识到了这点,一直将情感AGI视为重要方向的昆仑万维,希望攻克音乐AI这一大技术难题。

在研发天工SkyMusic过程中,研究团队积极探索音频内容,尤其是音乐对于情感理解与表达的独特优势。

他们不仅关注音乐作品的谱曲、编排和演唱等技术层面,更强调模型对音乐情感色彩的感知和再现能力。

天工SkyMusic在情感表达的准确性、多样性,以及歌词段落情绪变化的敏感捕捉,印证了昆仑万维在情感AGI上取得实质性进展。

当然,除了AI音乐生成,AI写作、绘画、动画等领域,昆仑万维也在探索其在创作工具中的应用。

在情感AGI这条主线上,他们希望通过自研技术,帮助创作者更好地通过AI技术表达和传递情感内涵。

未来三十年,会有越来越多的人表达自我,人类社会的自我表达侧要翻1000倍。

昆仑万维接下来所做的,便是让AI降低人类创作门槛,让我们每个人都加入这股AI音乐大潮。


返回网站首页

本文评论
带来九大新功能 苹果iOS17.4正式版发布_ios1719
【】3月5日,今日凌晨,苹果正式向iPhone用户推送了iOS 17.4 版本更新,在表情符号、Apple播客、音乐识别等多个板块带来更新。表情符号表情符号键盘中新增了蘑菇、凤凰、青柠、断...
日期:03-06
2021年春运流动人数「2024年春运将于1月26日开始:全国跨区域人员流动量预计达90亿」
快科技1月16日消息,据国内媒体报道,今日,国新办举行了新闻发布会。交通运输部以及相关部门负责人在会上介绍了2024年春运形势及工作安排。据悉,今年春运从1月26日开始,到3月5日结...
日期:01-17
贴心的智能手表,GarminMove为女性添加「经期追踪」功能_garmin手表定位
  随着科技的日益进步,智能可穿戴设备成为了一种新的生活潮流,智能手表的出现,更是重新定义了手表的价值。Garmin佳明作为可穿戴设备领域的佼佼者,将科技与时尚完美结合,...
日期:10-13
保护隐私!这些高考信息别在朋友圈乱晒_高考信息被别人泄露会影响录取结果吗?
6月25日消息,高考分数公布,很多学生会分享自己的考试成绩。专家提醒,保护好个人隐私,以下这些信息不要在微信朋友圈乱晒。1、准考证三星游戏电视机如果把准考证晒到朋友圈,身份证...
日期:06-26
红魔 8S Pro发布会汇总,携电竞平板等多款新品上线「红魔mars8+128参数」
7月5日,红魔正式举办了红魔8S Pro系列暨电竞宇宙新品发布会,会上的新品非常多,不仅仅是红魔8S Pro,还有红魔电竞平板等一系列电竞游戏产品。价格与开售信息速览:华为mate20续航表...
日期:07-06
当当网入驻京东,当当官方旗舰店在京东全面上线运营_京东当当网旗舰店在哪里
1月10日 消息:京东官方宣布,1月10日,京东图书与当当网在京签订战略合作协议,当当官方旗舰店在京东全面上线运营。京东图书与当当网表示,双方将以此为起点,在货品融通、客户服务、...
日期:01-10
我闯进每日优鲜 见到讨债讨薪和继续坚守的人
来源:亿邦动力网   文丨董金鹏 陈凯乐   [亿邦原创]烈焰照耀着喜马拉雅,雪山像披肩一样搭在身上,皓白,安谧,明澈,如同从天堂坠落的钻石。突然,一声巨响,倾泻而下,雪崩了。用放大...
日期:07-31
电影《孤注一掷》被指侵权 对方称原版系《捕鱼行动》
近日,宁波空谷幽水影业指控电影《孤注一掷》侵犯了其原创系列电影《捕鱼行动》的版权,引发了业内和观众的关注。这起侵权指控再次凸显了电影产业中版权保护的困境和挑战。荣耀...
日期:08-18
95号汽油降价了吗「95号汽油进入7元时代 6月13日24时起调价」
中国国家发改委6月13日发布消息,根据近期国际市场油价变化情况,按照现行成品油价格形成机制,自2023年6月13日24时起,国内汽、柴油价格每吨分别下降55元(人民币,下同)和50元。汽油和...
日期:06-14
iPhone 14 Plus不到两周 渠道降了1000多「苹果14出来13会降价吗」
在10月7一早,渠道第三方的最新报价来看,刚刚开售两周的iPhone 14 Plus,最低报价的红色已经降到了5950元,这相比6999元的首发价便宜了1049元,这也是有史以来首销两周同期跌幅最大...
日期:10-26
三部门印发《加强消费品标准化建设性的方案》 涉及家电领域_关于进一步加强消费者权益保护工作的通知
  日前,国家标准化管理委员会、工业和信息化部、商务部制定了《加强消费品标准化建设性的方案》。  加强消费品标准化建设是贯彻实施《国家标准化发展纲要》的重要任务,是...
日期:06-02
希沃助力大足城南教育集团居家不停学_大足区城南教育集团
  为深入贯彻中央关于疫情防控的指示精神,根据教育部和重庆市教委2020春季延期开学通知,大足城南教育集团积极推进学校延期开学的教育工作,保障学生在家"停课不停学",解决广...
日期:03-22
微博给力2010星光大典 微博式生存流行娱乐圈_微博星耀盛典
  腾讯网第五届星光大典落幕,除了赵雅芝、甄子丹、冯小刚等星光熠熠的明星集体亮相外,微博也成为此次娱乐圈年度盘点盛典的主角。据悉,本届星光大典与腾讯微博全方位融入,短...
日期:07-25
小米手机套子
[db:简介]...
日期:05-28
百度智能云千帆大模型平台推出千帆SDK开源版本_千帆数据app
11月8日 消息:百度智能云千帆大模型平台再次升级,推出千帆 SDK,全面开源并免费下载使用。该 SDK 提供了从数据集管理、模型训练、模型评估到服务部署等一系列功能,用户可以通过...
日期:11-08
科大讯飞2023年半年报:实现营业收入78.42亿元 净利润下降_科大讯飞2021半年报
通信世界网消息(CWW)8月12日,科大讯飞发布2023年半年报,公司上半年实现营业收入78.42亿元,同比下降2.26%,归母净利润为0.74亿元,同比下降73.54%。公告称,科大讯飞第一季度实现营业收...
日期:08-14
智能网联汽车产业链特征「经济日报:智能网联汽车进入产业布局关键期」
  2022世界智能网联汽车大会室外展区。  新华社记者 任 超摄  随着数字经济加速融入,智能网联汽车已成为汽车产业创新发展的重要方向。工信部数据显示,今年上半年,具备组...
日期:09-28
华为2024年即将上市的折叠屏手机华为2024年第一季度将首次在折叠屏手机市场份额上超越三星-DSCC
来源:中关村在线小米手机是曲面屏手机吗根据最新的折叠/卷曲显示屏出货量和技术报告,2023年第四季度可折叠智能手机出货量同比增长了33%,达到420万部,创历史第四高。尽管三星Gal...
日期:03-18
AVEVA剑维软件与OEG携手打造一流的基于云端的3D虚拟培训
  AVEVA Unified Learning借助OEG知识库内容,增强操作人员的专业知识技能,帮助企业在疫情期间转换到远程工业员工学习模式   工业学习平台软件和内容领域的创新者和领导...
日期:07-10
比亚迪秦PLUS最强对手:菱星光轿车2月销量11964辆 :起售价8.88万元
快科技3月1日消息,据媒体报道,2024年2月,旗下五菱星光的销量为11964台,累计销量已达36713台。据悉,PHEV版本已于2023年12月6日上市,提供70和150公里两种续航(CLTC)版本可选,官方指导...
日期:03-02