您的位置:首页 > 互联网

AI入侵播客圈!比真人配音还逼真?实测爆火的微软AI语音角色“晓晓”

发布时间:2024-04-26 10:12:37  来源:互联网     背景:

声明:本文来自于微信公众号 头号AI玩家(ID:AIGCplayer),作者:石濑,授权转载发布。

AI语音再进化,人耳还能听出AI和真人的差别吗?

以上两段音频demo来自微软最近更新的AI语音角色“晓晓”。逼真、情绪到位、语气自然、断句近乎完美,是绝大多数网友听到“晓晓”声音时给出的评价。

在播客App小宇宙上,“Hacker News”账号用“晓晓”的声音制作了一期节目,听众在评论区留言表示“想打赏”。

实际上,这已经不是AI第一次入侵播客圈了。

2022年10月,一段美国知名播客主持人乔·罗根(Joe Rogan)与苹果公司已故创始人史蒂夫·乔布斯的对话音频在外网引发热议。长达20分钟的播客节目中,两人探讨了包括乔布斯的大学经历、对计算机的见解和个人信仰在内的多个话题。

这段播客音频由podcast.ai推出,为了生成这段内容,podcast.ai使用了乔布斯的传记和网络上关于他的所有录音,通过Play.ht人工智能语言模型进行了大量训练。此外,节目主持人罗根的语音也是AI生成的。

2023年7月,国内播客节目《大俗小雅》发布了一期完全由AI生成故事情节和语音的播客,在小宇宙上获得了超5000次收听,评论区还有听众留言表示,误把AI生成语音中的不自然当成了两位主播“情绪状态不好”。

从乔布斯“复活”录播客到《大俗小雅》的AI播客实验,AI生成人声面临的一个主要争议是缺乏真人发声时的抑扬顿挫和情感,如声音的单调和机械化,以及在节奏和语调上的不自然。这些都是阻碍AI语音技术进一步落地应用在有声内容创作上的难题。

如今,微软“晓晓”已经正式上线可用。它可以成为中文创作者新的语音生成利器吗?AI+有声内容创作又有哪些新玩法?“头号AI玩家”进行了一番探究。

实测微软“晓晓”:比真人配音还逼真?

“晓晓”是微软云服务平台Azure旗下TTS(文本转语音)语音库中的一个女性语音角色。目前有两个版本:

第一个版本是中文版“晓晓”,它支持21种不同的说话风格,适用于有声书、新闻、AI客户服务以及多情感表达等场景。

在“多情感表达”场景演示中,她能够在多种台词之间自如切换情绪,并精准匹配相应的语气和语调,整体表现既自然又流畅。

第二个版本是多语言版本的“晓晓”,支持91种语言的文本到语音转换,但仅提供默认的说话风格选项。

目前,两个版本的“晓晓”都可以在Azure官网免费体验(链接已同步整理至文末)。

由于申请微软Azure账户和部署语音服务的流程较为复杂,在此先附上详细操作步骤,以供参考:

首先,进入微软Azure官网,创建一个免费账户。

新用户注册后可享12个月免费服务,服务期满后,每月仍可获得50万字符的免费额度。对于大多数创作者而言,这样“量大管饱”的免费额度已然够用。

整个注册和使用过程,无需魔法,但需要提供一张VISA、万事达等信用卡或借记卡进行验证。实测中,我们用国内银行发行的VISA信用卡以及国内手机号完成了注册。

验证成功后,跳转到Azure主页,进入控制台,在“AI+机器学习”类别下,找到“语音”点击“Create”,部署语音服务。

进入创建语音服务页面,定价层选择“Free F0(即免费服务)”,区域选择你想使用的TTS语音支持的地区,因为是测试“晓晓”,在这里我们最后选择了“East Asia(东亚)”。

最后,点击页面下方的“审阅并创建”,就完成了部署。

接着转到“有声内容创作”页面,就可以投喂文本,让AI替你生成语音了。

界面布局主要包括中间的文本操作区和右侧的调音编辑工具栏。用户可以一次性编辑整个文本,也可以对单个句子或词语进行微调。

具体编辑功能涵盖朗读角色切换、停顿设置、朗读规则调整以及语调语速控制等,都支持用户根据需要进行自定义修改。

例如,在下面这段文本中,我们将叙事旁白设置成了中文版晓晓的“新闻”说话风格,并在同一个句子中切换朗读角色,营造出小说中的对话感。

测试1,头号AI玩家,59秒

对比测试中,我们让其用不同情绪说同一句话,也表现出明显的区分度,效果令人惊喜。

测试2,头号AI玩家,12秒

而多语言版本的“晓晓”虽然只支持默认的说话风格,但其生成的声音效果既自然又流畅,并且能够处理文本中的语气词,乍一听根本无法分辨真假。

晓晓多语言版测试1,头号AI玩家,8秒

不过,在我们的测试中,她只有在语言技能选择“中文普通话”时,才可以还原早前微软放出的演示效果,生成的人声自然逼真。

如果选择其他语言或地区方言,如粤语或台湾普通话,声音就又回到“一听即AI”的效果。

晓晓多语言版测试2,头号AI玩家,10秒

据微软官方介绍,包括多语言版晓晓在内的9种声音角色是基于大语言模型训练的,如OpenAI搭建在Azure云上的GPT服务,因此尤其擅长口头对话、日常聊天等对语言自然度和表现力要求较高的场景。

除了使用TTS语音库预设置好的声音,微软Azure还提供了声音定制服务,支持品牌或个人使用有版权的音频样本作为训练数据,创建自定义语音。

宇通客车战略分析

AI+有声内容,进入真假难辨时代

从有声书到短视频配音,再到软硬件内随处可见的文本朗读功能,AI生成的有声内容已经成为普通人日常最频繁使用的AI技术之一。

以微软的语音角色“云希”为例,只要你刷过短视频,就一定能认得他的声音。

《注意看这个男人叫小帅》:

,时长00:19视频来源:抖音博主阿莫西木木

由于去除了以往AI的机械式发音和单一腔调,“云希”在影视解说配音中广受欢迎,迅速火遍全网。同时,它在有声书领域也得到了广泛应用,许多网友会借助接入微软TTS服务的软件和API,利用“云希”的声音文本转语音,提升听书体验。

技术快速迭代下, 如今市面上出现了越来越多方便易用的产品。例如,如喜马拉雅旗下的音剪,即支持一站式AI音频创作,提升有声书制作效率、降低创作成本。

具体到AI文本转语音赛道上,国外爆火的产品如ElevenLabs对中文的支持度并不高,而国内的MiniMax、火山引擎等产品,虽然可以生成较为流畅的中文朗读音频,但仍未达到播客声音制作所需的自然度和情感表达水平。

例如,在《大俗小雅》的AI播客实验中,不少网友反馈AI生成的声音“念稿”痕迹很明显。

相较短视频和有声书,AI语音技术在播客场景的应用还很有限。

“头号AI玩家”从多方了解到,目前播客创作者会使用ChatGPT等文本生成模型,来提高前期内容策划、内容大纲以及播客内容摘要(shownotes)等文本内容的生产效率。

但在声音生成上,播客内容制作追求的不仅仅是流畅的朗读,更重要的是通过声音传递情感,增强听众的沉浸感和情感共鸣。

此外,播客声音内容的强IP属性,以及高度人格化的表达,也是创作者在使用AI生成语音时需要谨慎考量的问题。这些特性要求AI不仅要准确传达信息,还要能够模仿人类的情感和语调,与听众建立情感联系。

对于能够自如地通过口语表达自己观点的创作者而言,独特的口音或语调反而可以形成一种差异化优势,有助于塑造创作者的个人风格。

随着AI生成语音、克隆语音越来越真实,也不乏有内容创作者开始利用AI技术来制作更新频率高的资讯类语音播报内容。

例如,播客节目《十字路口》主播就曾在一期节目中透露,得到联合创始人快刀青衣主理的一档AI资讯节目《快刀广播站》,就是只写脚本,语音部分由AI来完成,效果相当自然。

AI语音技术的发展,无疑为内容创作者提供了新的工具和可能性。

尤其是微软最近推出的多语言版晓晓,进一步展示了AI语音技术在播客内容制作中的应用潜力。可以预见,在技术抹平内容创作门槛的同时,内容创作也将前所未有的“卷”,如何打造差异化内容,是每一个创作者都需要思考的问题。

微软TTS语音体验网址:

https://azure.microsoft.com/zh-cn/free/ai-services/

微软声音定制申请网址:

https://speech.microsoft.com/portal/17e48f6eeeff471385a6dd6dc1ac94d2/customvoice/overview


返回网站首页

本文评论
山东一地上空出现超大圆环彩虹 网友:第一次见 美到爆
8月28日傍晚,山东泰安市泰山脚下,出现一道巨大无比的彩虹犹如仙境中的奇观,横跨泰安市上空,将整座城市染上了绚丽多彩的色彩。据悉,彩虹出现的时间正好是傍晚时分,当天的天气晴朗,...
日期:09-01
富士康称尽快恢复郑州工厂全面生产 下调第四季度业绩预期「郑州富士康几几年造成的」
凤凰网科技讯 北京时间11月7日消息,苹果最大iPhone代工商富士康周一表示,该公司正在努力尽快恢复郑州工厂的全面生产,并下调了第四季度业绩预期。富士康在一份声明中称,郑州工厂...
日期:11-12
网易《蛋仔派对》地图被抄袭 作者起诉腾讯《元梦之星》_蛋仔派对最新上架时间
3月28日 消息:今日,网易旗下知名游戏《蛋仔派对》的官方微博发布了一则重要声明,指出《蛋仔派对》中备受喜爱的乐园地图《因蓝》的原创作者,已就腾讯旗下游戏《元梦之星》内存...
日期:03-28
云网融合促融通 战新共链创未来 中国电信战新共链行动大会暨第三届科技节在京举办
通信世界网消息(CWW)10月9日,中国电信战新共链行动大会暨第三届科技节在京举办。本届大会以“云网融合促融通战新共链创未来”为主题,旨在发挥云网融合优势,以移动支付现代产业链...
日期:10-11
英伟达与华硕推出最强移动工作站:搭载RTX 6000,24GB显存
  9月4日消息 根据WCCFTECH的报道,英伟达和华硕在IFA2019上合作推出了一款最强移动工作站——新款华硕ProArt,采用NVIDIA RTX 6000 移动版显卡,搭载24GB VRAM,接近桌面版性能...
日期:05-10
环卫工子女可在当地入学吗?「感动全网的环卫工儿子考470分 妈妈表示很满意」
2023年高考成绩陆续公布,虽然学霸们的优异成绩令人羡慕,但很多看似普通的成绩却并不简单。6月8日,在河北省保定市,一位环卫工妈妈在孩子走出考场后,将手中仅有的一瓶水留给孩子,两...
日期:06-25
人工智能推动2023年第四季度全球云支出增长创新高_2020年世界人工智能大会云端峰会
2月9日消息,近日,全球最大云厂商亚马逊云科技和国内最大云厂商阿里云相继公布了2023年第四季度业绩。至此,全球主要云厂商第四季度的表现均已公开。整体来看,全球市场对云基础设...
日期:02-09
特斯拉客服回应大幅降价:暂未收到通知「特斯拉降价消息 新闻」
9月30日 消息:9月30日,有消息称特斯拉国产车型Model3和Model Y将进行大幅降价,其中特斯拉在华主销车型Model Y的降价幅度最高有望达到4万元,最终Model Y后轮驱动型的起售价可能...
日期:10-03
美图旗下Wink推出AIGC功能Outpainting“AI画面拓展”「美图ai功能在哪里」
6月19日 消息:近日,美图公司旗下视频编辑产品Wink推出国内移动端首发AIGC功能“AI画面拓展”。用户可以快速拓展图像边界,对照片或图片素材进行内容填充,该功能不仅能有效提升...
日期:06-19
小米钛轻盈评测「Pro钛合金版太抢手 雷军催货了_小米14」
来源:中关村在线小米14 Pro钛合金特别版深受用户欢迎,以至于一上市就出现了抢购热潮。针对网友的F码需求,小米创始人雷军在微博上回应称,他已经在催货了。与普通版相比,小米14 Pr...
日期:10-31
马斯克:聊天机器人Grok将向X平台所有高级账户开放_马斯克聊天软件
3月27日 消息:今日,马斯克称,本周晚些时候,大模型Grok将向X社交媒体premium订阅用户全面开放。菜鸟网络 万霖奇瑞30多万车3月18日 马斯克旗下xAI宣布开源Grok-1。据悉,Grok-1基...
日期:03-27
生数科技完成数千万元天使+轮融资,锦秋基金独家投资
8月10日消息,近日,北京生数科技有限公司(简称“生数科技”)完成了数千万元天使+轮融资,本轮融资由锦秋基金独家投资。此轮资金将主要用于算法研发、产品开发和团队扩充。今年六月...
日期:08-10
飞书工作「飞书She Power:职场“她力量”在觉醒」
女性领导力真的存在吗?2012年,陈彦丹刚生孩子的时候,她正在一家世界500强工作。因为工作强度大,她很难腾出时间带孩子。为了不让孩子成为“城市留守儿童”,她最终选择辞职,全职带...
日期:03-08
朋友邮件也不安全 “五一旅游攻略”暗藏木马
  白领王先生最近收到朋友邮件,当他下载邮件附件中的“香港3日游攻略”时,360安全卫士忽然发出拦截木马的红色警报。经证实,这封邮件并非王先生的朋友所发,而是对方电脑已经...
日期:07-27
报告称 56% 的 iPhone 用户使用专注模式提高专注力「ios专注模式是什么意思」
IT之家 9 月 7 日消息,移动应用体验公司 Airship 今天发布详细报告,表示数字幸福感对全球消费者越来越重要。本次调查委托 Sapio Research 进行,追踪咨询了美国、加拿大、英国...
日期:09-07
售价近万元!小米13 Ultra现身欧洲部分零售商网站_小米 欧洲市场
小米13 Ultra预计将以低于最初预期的价格在欧洲发布,12GB 512GB版本的售价仅为1299欧元(约9846元人民币)。蓝凌知识管理系统这款手机搭载一英寸徕卡光学全焦段四摄 大光圈,采用...
日期:05-31
ChatGPT带火NVIDIA显卡 顶级型号价格超25万元:国内没得买「nvidiageforce显卡排名」
快科技4月11日消息,ChatGPT最近几个月火爆之后,国内外多家科技巨头都在推出自己的AI大模型,这就需要庞大的AI算力支撑,这方面还是得靠NVIDIA的加速显卡,达到ChatGPT这种级别的至...
日期:04-12
Rambus发布第四代RCD芯片:支持7200 MT/s的DDR5内存,提升数据中心性能
目前业界正在向DDR5内存过渡,以拓展内存带宽。其采用了新的DIMM架构,融合了多项创新,可实现速度等级跳跃并支持适用于未来的扩展,能更好地满足以生成式人工智能(AI)为主导的计算市...
日期:12-28
大模型从“通用”走到“专用”,为什么讯飞要搞星火一体机?_讯飞m1s评测
(原标题:大模型从“通用”走到“专用”,为什么讯飞要搞星火一体机?) oppo闪充技术给高通 如今大模型开放性的生态至关重要,包括数...
日期:08-18
平安健康营收「平安健康:公司中期目标为盈亏平衡,付费用户数增长至5000万-6000万」
8月18日,平安健康公布2022年中期业绩报告。报告期内,平安健康总收入达28.3亿元,归属于公司所有者的净亏损为4.24亿元,上年同期为亏损8.8亿元,亏损同比收窄51.8%。报告期内,平安健...
日期:09-03