您的位置:首页 > 互联网

阿里开源新语音模型,比OpenAI的Whisper更好!_阿里语言

发布时间:2024-08-10 17:00:03  来源:互联网     背景:

声明:本文来自于微信公众号 AIGC开放社qu,作者:AIGC开放社,授权转载发布。

阿里巴巴在Qwen-Audio基础之上,开源了最新语音模型Qwen2-Audio。

Qwen2-Audio一共有基础和指令微调两个版本,支持使用语音向音频模型进行提问并识别内容以及语音分析。

例如,让一位女生说一段话,然后识别她的年纪或解读她的心情;发布一段吵闹的声音,分析有哪些声音组成等。

目前,Qwen2-Audio支持中文、粤语、法语、英语、日语等主流语言和方言,这对于开发翻译、情感分析等应用非常方便。

开源地址:https://github.com/QwenLM/Qwen2-Audio

Qwen2-Audio能力大幅度提升

与第一代Qwen-Audio相比,Qwen2-Audio在架构、性能等方面进行了大幅度优化和改进。在预训练阶段Qwen2-Audio采用了自然语言提示,替代了Qwen-Audio使用的复杂分层标签系统。

核桃编程和核桃少儿编程

v6发动机性价比高的车

这一改变简化了模型的训练过程,使得模型能够更自然地理解和响应各种数据和任务,提高了模型的泛化能力能更好地理解和执行各种指令。

Qwen2- Audio在指令跟随能力方面有了显著提升,通过增加指令调优和直接偏好优化等方法,可更准确地理解用户的指令,并根据指令提供更恰当的响应。

例如,当用户发出语音指令,“分析这段音频中的情感倾向时”,Qwen2- Audio能够更精准地判断出音频中的情感。

在功能方面Qwen2– Audio也进行了扩展,支持语音聊天和音频分析两种模式:在语音聊天模式中,用户可以更加自由地与Qwen2- Audio进行语音交互,就像与朋友聊天一样自然。

在音频分析模式中,Qwen2- Audio能够对各种类型的音频进行深入分析,提供更详细和准确的分析结果。

此外,Qwen2-Audio还引入了监督式微调(SFT)和直接偏好优化(DPO)两种优化方法。在SFT阶段,模型通过高质量的微调数据进一步与人类意图对齐,这使得Qwen2-Audio在与人类交互时更加自然和准确;

DPO则通过人类标注的好响应和坏响应数据来优化模型,使其输出更符合人类的期望和偏好。

Qwen2-Audio架构简单介绍

Qwen2-Audio使用了OpenAI开源的语音模型Whisper-large-v3作为音频编码器。为了更好地处理音频数据,Qwen2-Audio采用了16kHz的采样频率,并将原始波形转化为128通道的mel谱图,通过25ms窗口大小和10ms跳帧,确保了音频特征的时间分辨率与频谱信息的完整性。

为了减少音频表示的长度,Qwen2-Audio引入一个池化层其步幅为2,编码器输出的每帧大约对应于原始音频信号中40ms的片段。这种处理方式使得模型能够有效地捕捉音频信号的特征,为后续的分析和理解提供了有力的支。

语音分析,AIGC开放社区,1分钟

Qwen2-Audio准确输出分析结果

Qwen2-Audio使用了阿里自研的大模型Qwen-7B作为语言模型,能根据输入的音频和文本数据生成相应的文本输出。主要与音频模块协同工作,实现对音频信息的理解和处理。

当音频编码器对输入的音频信号进行特征提取后,这些特征会与之前的文本序列一起输入到大语言模型中,会对这些信息进行综合分析,理解音频中所包含的语言内容和语义信息。

例如,如果输入的音频是一段对话,大语言模型会尝试理解对话的主题、参与者的意图以及情感倾向等。

在生成文本输出时,大语言模型会根据对输入信息的理解,通过其所学到的语言知识和模式,生成准确的文本回复。

为了测试Qwen2-Audio性能,阿里在AIR – Bench、S2TT、ASR、Fleurs zh等主流基准上进行了综合评测。

阿里语音开放平台

铁路12306app售票时间

结果显示,Qwen2-Audio的整体性能非常强劲,在librispeech的test-clean和test-other数据集上分别达到了1.6%和3.6%的WER。

在Fleurs的中文子集上,Qwen2-Audio的成绩优于OpenAI的Whisper-large-v3。

在CoVoST2数据集上的语音翻译测试中,Qwen2-Audio在所有七个翻译方向上均大幅度领先于基线模型。在SER和VSC测试中,Qwen2-Audio同样以显著成绩胜出。

本文素材来源Qwen2-Audio,如有侵权请联系删除


返回网站首页

本文评论
快狗打车“我型我秀“开始啦,火速围观司机师傅们的最帅瞬间!
  最近,有个关于“什么样的男人最帅”的话题引发网友热烈讨论,大家纷纷留言写下自己眼中男人最帅的瞬间。俗话说“萝卜白菜,各有所爱”,每个人对帅哥的定义也各不相同。...
日期:03-09
鸿蒙先锋共筑星河丨北大学子开发鸿蒙原生应用,用代码编写智慧校园
“勤奋、严谨、求实、创新”是每一个北大学子熟知的优良学风,代表着高校学子对学术和知识的态度,他们勤奋治学,勇于创新,期待用自身力量为世界带去希望与无限可能,这种精神也和Ha...
日期:06-23
雷军开车门雷军亲自给小米车主开车门_雷军哽咽:押上全部声誉,为小米汽车而战!
来源:中关村在线今日,小米汽车北京工厂迎来了一批特殊的客人——首批交付的用户们。他们怀揣着期待与好奇,步入了这个充满科技氛围的工厂。然而,令他们意想不到的是,迎接他们的竟...
日期:04-03
什么值得买发布全面AI战略:值得买消费大模型参数规模达130亿_什么值得买缺点
5月11日 消息:在5月10日于北京举行的以“效率驱动未来”为主题的2024值得买科技集团战略发布会上,值得买科技创始人、董事长隋国栋分享了公司的创业理念、AIGC实践以及对未来...
日期:05-11
驱动人生双重好礼惊喜来袭!
  关注驱动人生 获取解决方案 震惊!一个驱动竟然可以解决N个游戏BUG?! 爱玩游戏的宝宝们看过来! 在驱动人生8驱动管理中 安装一个贼6的显卡驱动 居然能解决多个游戏Bug...
日期:03-22
超一级能效节能新旗舰,米家双出风空调强势来袭_米家空调评测
2024年7月19日,在2024#雷军年度演讲#上米家空调Pro系列全新立式双出风新品亮相,不仅采用全栈自研,更是小米现阶段最高端的空调产品,拥有自研双循环新风系统、自研智能电控系统和...
日期:07-20
迪拜旅游局升级支付宝合作,全市RTA出租车可用支付宝支付「在迪拜可以用支付宝支付?」
8月8日 消息:近日,迪拜旅游局在2023年大中华区活动中宣布,升级与支付宝的合作,全城RTA出租车全面接入支付宝支付,同时对支付宝App上的迪拜城市页面进行升级,上线迪拜官方旅游视频...
日期:08-08
ar图片软件「ARC图片增强官方体验入口 AI图片修复APP推荐」
ARC图片增强是一款由腾讯AI产品提供的图像处理工具,包括人像修复、人像抠图、动漫增强等,可有效提升图片的品质和美观度,可用于修复老照片或者照片去背景等场景。那么ARC图片增...
日期:12-05
两款iPhone 14 Pro卖爆:苹果季度收入将创新纪录「苹果12pro的销量」
尽管iPhone 14/14 Plus破发,销售情况不理想,但价格更贵的iPhone 14 Pro/Pro Max却异常火爆,至今还是供不应求。日前,投行摩根大通在一份研报中预测,苹果第四财季的收入有望在900...
日期:10-14
华为支付首批入驻伙伴包括滴滴美团同程猫眼等
10月17日 消息:据科技日报报道,近日华为支付正式开通。华为方面透露,花瓣支付公司支持下的华为支付是鸿蒙生态中的全场景支付服务,用户可以在华为钱包App开通使用。为加速鸿蒙...
日期:10-18
疫情对游戏行业的影响分析_疫情冲击游戏行业:玩家回归现实世界 游戏公司销售滑坡
ThinkPad Stack   讯 北京时间8月15日早间消息,据报道,近几个月,随着疫情后玩家逐渐回归现实世界,同时生活成本的上升迫使他们削减开支,游戏公司的销售和玩家的参与度都在大幅...
日期:08-17
红米pro7尺寸「Redmi K70 Pro正面揭晓:6.67英寸超窄边直屏 无塑料支架」
快科技11月24日消息,在公开背部设计之后,Redmi K70 Pro的正面外观也正式揭晓。新机采用了6.67英寸的超窄边直屏,只有下巴部分略宽了一些,屏幕四周无屏幕支架、无填缝胶,整体与小...
日期:11-24
小米618什么时候结束「小米公布618战报:累计金额突破194亿」
凤凰网科技讯 6月19日消息,小米公司宣布,截至6月18日23:59:59,小米618全渠道累计支付金额破194亿元。小米sos按5次没用美的除螨仪b5d小米全面屏手机mix5发布时间三星note9屏幕...
日期:06-19
QQ飞车上线薛之谦跑车,网友的嘴角比AK都难压!_qq飞车捏脸薛之谦
声明:本文来自于微信公众号 营销兵法(ID:lanhaiyingxiao),作者:兵法先生,授权转载发布。华为p60啥时候出游戏圈请明星代言,并不是什么新玩法。从拍摄广告片、演唱主题曲,到公开体...
日期:07-05
iqooz9发布会时间iQOO,Z9系列新品发布会汇总 1449元起_iqooz3手机发布会
来源:中关村在线4月24日,iQOO举行iQOO Z9系列新品发布会,下面就让我来带大家一文看懂发布会内容~新品售价速览iQOO Z9 Turbo,先享计划现已开启,4月29日开始发货:12GB+256GB,首销价1...
日期:04-25
淘宝商城“暴动”事件反思:“私刑”维权伤害无辜不可取
淘宝商城调整技术服务费引发的小卖家恶意攻击大卖家事件已告一段落,淘宝商城最终以出台扶植政策的方式,在保证原则不退让的前提下,平息了这场风波。回过头来理性地反思整个事...
日期:07-24
巨人网络与阿里云达成合作 共建“游戏+AI”智算平台_巨人网络集团创始人
7月14日 消息:今日,巨人网络与阿里云宣布达成“游戏+AI”全面合作。根据合作备忘录,阿里云与巨人网络将共建“游戏+AI”智算平台。基于巨人网络的游戏研发平台、阿里云通义千...
日期:07-14
苹果独播!《帝王计划:怪兽遗产》今日上线:IGN8分大作_帝王计划20个怪兽怎么画
快科技11月17日消息,《帝王计划:怪兽遗产》今天正式上线Apple TV ,这是奇影业联合苹果TV出品的哥斯拉怪兽剧集。该剧集共10集,11月17日首播2集,随后每周五发布一集,直到1月12日。...
日期:11-18
MPV中的“劳斯莱斯”!极氪009光辉亮相_极氪001报价
快科技4月19日消息,今日晚间,极氪旗下首款四座超豪华旗舰座驾极氪009光辉亮相,直指劳斯莱斯、宾利以及迈巴赫等世界级超豪品牌。官方表示,这台四座MPV被赋予光辉”之名,寓意极氪0...
日期:04-20
价格暴跌之后,数十只无聊猿NFT面临清算危机
  记者/司林威  NFT里的最强王者也难逃熊市命运。  8月24日,无聊猿(BYAC)NFT的地板价跌至66.9ETH,创下今年以来的最低值。由于其在NFT市场的特殊地位,价格暴跌致使NFT借贷...
日期:08-25