您的位置:首页 > 智能设备

阿里“杀手锏”级语音识别模型来了!推理效率较传统模型提升10倍 已开源「语音识别智能算法」

发布时间:2022-12-22 22:37:54  来源:互联网     背景:

丰色 发自 凹非寺

量子位 | 公众号 QbitAI

基于cnn的语音识别研究

阿里达摩院,又搞事儿了。

这两天,它们发布了一个全新的语音识别模型:

Paraformer。

开发人员直言不讳:这是我们“杀手锏”级的作品。

——不仅识别准确率“屠榜”几大权威数据集,一路SOTA,推理效率上相比传统模型,也最高可提升10倍。

值得一提的是,Paraformer刚宣布就已经开源了。

语音输入法、智能客服、车载导航、会议纪要等场景,它都可以hold住。

怎么做到的?

Paraformer:从自回归到非自回归

我们知道语音一直是人机交互重要研究领域。

而当前语音识别基础框架已从最初复杂的混合语音识别系统,演变为高效便捷的端到端语音识别系统。

其中最具代表性的模型当属自回归端到端模型Transformer,它可以在识别过程中需逐个生成目标文字,实现了较高准确率。

不过Transformer计算并行度低,无法高效结合GPU进行推理。

苹果12pro溢价最新消息

针对该问题,学术界近年曾提出并行输出目标文字的非自回归模型。

然而这种模型也存在着建模难度和计算复杂度高,准确率有待提升的问题。

达摩院本次推出的Paraformer,首次在工业级应用层面解决了端到端识别效果与效率兼顾的难题。

它属于单轮非自回归模型。

对于这一类模型,现有工作往往聚焦于如何更加准确地预测目标文字个数,如较为典型的Mask CTC,采用CTC预测输出文字个数。

但考虑到现实应用中,语速、口音、静音以及噪声等因素的影响,如何准确的预测目标文字个数以及抽取目标文字对应的声学隐变量仍然是一个比较大的挑战。

另外一方面,通过对比自回归模型与单轮非自回归模型在工业大数据上的错误类型(如下图所示,AR与vanilla NAR),大家发现相比于自回归模型,非自回归模型在预测目标文字个数(插入错误+删除错误)方面差距较小,但是替换错误显著的增加。

阿里达摩院认为这是由于单轮非自回归模型中条件独立假设导致的语义信息丢失。与此同时,目前非自回归模型主要停留在学术验证阶段,还没有工业大数据上的相关实验与结论。

Paraformer是如何做的呢?

针对第一个问题,阿里达摩院采用一个预测器(Predictor)来预测文字个数并通过Continuous integrate-and-fire (CIF)机制来抽取文字对应的声学隐变量。

当贝投影仪f3使用教程

针对第二个问题,受启发于机器翻译领域中的Glancing language model(GLM),他们设计了一个基于GLM的 Sampler模块来增强模型对上下文语义的建模。

除此之外,团队还设计了一种生成负样本策略来引入MWER区分性训练。

最终,Paraformer由Encoder、Predictor、Sampler、Decoder与Loss function五部分组成。

核心点主要包含以下几点:

Predictor模块:基于CIF 的Predictor 预测语音中目标文字个数以及抽取目标文字对应的声学特征向量;

Sampler:通过采样,将声学特征向量与目标文字向量变换成含有语义信息的特征向量,配合双向的Decoder来增强模型对于上下文的建模能力;

基于负样本采样的MWER训练准则。

效果SOTA,推理效率最高提10倍

语音识别里面重要的两个技术领域

最终,在学术界常用的中文识别评测任务AISHELL-1、AISHELL-2及WenetSpeech等测试集上, Paraformer-large模型均获得了最优效果。

苹果airpods max日版

在AISHELL-1上,Paraformer在目前公开发表论文中,为性能(识别效果&计算复杂度)最优的非自回归模型,且Paraformer-large模型的识别准确率远远超于目前公开发表论文中的结果(dev/test:1.75/1.95)。

redmi9a手机什么处理器

在专业的第三方全网公共云中文语音识别评测SpeechIO TIOBE白盒测试中,Paraformer-large识别准确率超过98%,是目前公开测评中准确率最高的中文语音识别模型。

配合GPU推理,不同版本的Paraformer可将推理效率提升5~10倍。

同时,Paraformer使用了6倍下采样的低帧率建模方案,可将计算量降低近6倍,支持大模型的高效推理。


返回网站首页

本文评论
苹果新品发布会后各大手机的反应_苹果官方否认“翻车”!新品的新功能真的靠谱吗
近日,有相关媒体报道称,一博主在使用苹果的新品——Apple Watch Ultra智能手表时发现,手表的车祸检测对应的并非是机器人,而有可能是人工客服。(注:在Apple Watch S8/Ultra和iPhon...
日期:10-09
明年的三星s23手机续航怎么样「三星S23完整配置曝光!配6.1英寸屏幕和3900毫安电池」
  最近,有消息称三星正在致力于将手机的摄像头做得越来越平,目标是摄像头模组平于手机背板。而从今年的S23系列开始,三星就要开始逐步实现这一目标了。从之前流出的S23外观来...
日期:10-21
miui13发布了吗_小米 MIUI13 外观曝光,预计将在年底到来
  9 月 19 日消息 小米现已开始测试基于安卓 12 的 MIUI 12.5,并有望在今年年底开始通过 OTA 更新推送 MIUI 13 版本,届时IT之家将为大家带来更多报道。  现有网友在小米...
日期:07-10
vivo x90系列参数曝出「vivo X90系列影像再升级!后置四摄设计 主摄一英寸」
  虽然目前vivo官方暂未公布任何有关vivo X90系列的消息,但是该系列机型的配置爆料却并不少。仅从现有爆料信息来看,这款手机无论是性能还是续航,都是新近旗舰机中的佼佼者。...
日期:10-19
google pixel 6 pro 128g_谷歌Pixel Fold渲染图曝光:售价1799美元 将于2023年5月推出
谷歌Google Pixel Fold渲染图曝光,展示了该设备的设计以及其它细节。从图片看,Google Pixel Fold 比三星的 Galaxy Z Fold 宽很多。后者相当窄,很容易放在口袋里。相比之下,Pixe...
日期:11-24
调查:近七成晚睡与手机有关 蓝光会抑制褪黑素释放「手机的蓝光会影响褪黑素的形成」
  睡前玩手机已经成为很多年轻人夜生活一个必不可少的项目,但长此以往,入睡困难、易醒、失眠、打鼾等又成了横在我们面前的几大难题。10月12日消息,据央视新闻报道,有调查显示...
日期:10-13
iPhone 14 Pro系列灵动岛设计指南发布:不能打广告「iphone14pro灵动岛演示」
  本文来自太平洋电脑网  在月初发布的iPhone14Pro和iPhone14Max上搭载的灵动岛引起了众多人的关注,掀起了讨论热度。  但在此之前,苹果并没有开放灵动岛的开发权限,也导...
日期:10-02
virglass官网_Virglass究竟藏着什么
  据有关媒体报道,上海某移动互联网公司正在研发一款名为“Virglass”的可穿戴智能设备,该产品将于今年秋冬时节正式发布。不过据小编多方打探得知,这款号称“中国版谷歌眼镜...
日期:07-26
中芯国际:汽车所用芯片和分立器件在代工行业占比较小「中芯国际有否生产汽车芯片」
IT之家 11 月 16 日消息,据中芯国际昨日披露的投资者关系活动记录,在 11 月 11 日举行的业绩说明会上,中芯国际表示,汽车行业所用的芯片和分立器件在代工行业的占比比较小,靠这个...
日期:11-27
解锁《令人心动的offer》何运晨同款记录神器 讯飞智能录音笔SR101
  有哪些工具和技巧能提升工作效率?相信这是很多职场人势必会遇到也想急于解决的问题。目前,《令人心动的offer》人气嘉宾何运晨在Vlog中给出了答案。作为科大讯飞智能录...
日期:07-10
华为nova9系列发布时间敲定:全系支持4G网络,九月下旬发布_今年华为会发布Nova9吗
  ITBEAR科技资讯8月31日消息,其实华为方面也在今年九月份有场发布会,想必届时会带来更多新产品。据知名数码博主@菊厂影业fans最新爆料,称华为nova 9系列手机时间敲定,发布时...
日期:07-10
iPhone 14 Pro紫色工艺有缺陷:背壳磨砂会脱落「iphone14pro max深空黑色边框是磨砂吗」
  今年iPhone 14 Pro系列卖的非常好,甚至导致iPhone 14标准版都几乎无人问津。  尤其是全新的紫色版,比较低调且会变色的暗紫色,配合上AG磨砂工艺的玻璃背壳,整体显得非常有...
日期:10-02
如此抢手:1860元的Nexus 4瞬间被抢光「nexus93180」
  看来老外也喜欢性价比高的东西。昨天美国、英国、加拿大、德国、法国、西班牙以及澳大利亚这七个国家开始发售Nexus 4,而首批到货的Nexus 4就被当地用户瞬间抢光了(瞬间...
日期:07-25
Simply NUC发布Topaz 2迷你主机 采用英特尔12代移动处理器
  Simply NUC 刚刚推出了首款搭载 12 代英特尔处理器的 Topaz 2,适用于从 SOHO 办公、到数字标牌等各种计算应用场景。与初代 Topaz 机型相比,Topaz 2 最高可选 12 核 / 1...
日期:11-12
三大运营商公布5g用户数「三大运营商八月份运营数据 5G套餐用户数接近十亿」
9月21日消息,日前,三大运营商相继公布2022年8月运营数据,整体来看,八月份数据表现与前几个月相差不大,5G用户数量方面,三大运营商5G套餐用户数接近十亿。诺基亚Windows phonertx30...
日期:09-28
2021年中国手机市场排名出炉:vivo第一 华为荣耀并列第五_vivo手机排名前十2021
Counterpoint公布2021年中国市场智能手机销量。数据显示,vivo以22%的市场份额排名第一,紧随其后的是OPPO、苹果、小米、荣耀、华为和realme。荣耀现在销量Counterpoint数据显...
日期:08-29
男子1.3万买RTX 4090显卡:打开直呼“赚大” 结果更被封账号「RTX 4090显卡被曝」
原标题:男子1.3万买RTX 4090显卡:打开直呼“赚大” 结果更被封账号【今日商业精选】蔚来赴美IPO争议RTX 4090上市后,已经有入手的玩家表示,显卡是真的香,性能强大就是有点贵,不过...
日期:10-24
曝华为mate 50 pro 系列支持5g 手机壳「华为Mate50 5G手机壳谍照曝光:轻薄称手 不影响使用体验」
  月初,华为带来了新一代旗舰机Mate50系列,这是两年来Mate品牌再次发布新品,在本次发布会上,华为“捅破天”技术也正式亮相,该机支持了北斗卫星消息硬件能力,是全球首款支持北斗...
日期:09-16
vivo x80天玑版和高通版「vivo X80 Lite渲染图曝光:机身超薄 或搭载天玑900芯片」
  本文来自TechWeb360随身wifi一代  4月25日晚,vivo正式发布第二代双芯旗舰——vivo X80系列,包括vivo X80和vivo X80 Pro两款机型,其中vivo X80 Pro还提供了骁龙8和天玑90...
日期:09-16
三星S23系列最新爆料:S23 Ultra重234g 支持45W充电「三星s22ultra系统操作体验」
  熟悉三星的小伙伴都知道,三星的S系列可以称得上安卓阵营的机皇。S系列凭借着高素质屏幕、强悍性能等优点获得了用户的一致好评。目前,三星最新的S系列机型是S22系列。根据...
日期:10-26