您的位置:首页 > 互联网

摩尔线程 天眼查「摩尔线程开源音频理解大模型MooER:38小时训练5000小时数据」

发布时间:2024-08-24 16:16:10  来源:互联网     背景:

快科技8月23日消息,摩尔线程官方宣布,音频理解大模型MooER”(摩耳)已经正式开源,并公布在GitHub上:https://github.com/MooreThreads/MooER

目前开源的内容包括推理代码,以及5000小时数据训练的模型,后续还将开源训练代码,以及基于8万小时数据训练的模型。

摩尔线程希望,能够在语音大模型的方法演进和技术落地方面为社区做出贡献。

MooER是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型,依托摩尔线程的夸娥(KUAE)智算平台,并得益于自研的创新算法和高效计算资源的结合,仅用38个小时,就完成了5000小时音频数据和伪标签的训练。

MooER不仅支持中文和英文的语音识别,还具备中译英的语音翻译能力,并在多个语音识别领域的测试集中,展现出了领先或至少持平的优异表现。

MooER的模型结构包括Encoder、Adapter、Decoder(LLM)三个部分。

其中,Encoder对输入的原始音频进行建模,提取特征并获取表征向量。

Encoder的输出会送到Adapter进一步下采样,使得每120ms音频输出一组音频Embedding。

音频Embedding和文本的Prompt Embedding拼接后,再送进LLM进行对应的下游任务,如语音识别(ASR)、语音翻译(AST)等。

在模型训练阶段,融合了语音模态和文本模态的数据会按以下形式输入到LLM:

摩尔线程使用开源的Paraformer语音编码器、Qwen2-7B-instruct大语言模型,初始化Encoder和LLM模块,并随机初始化Adapter模块。

训练过程中,Encoder始终固定参数,Adapter和LLM会参与训练和梯度更新。

利用自研的夸娥智算平台,摩尔线程使用DeepSpeed框架和Zero2策略,基于BF16精度进行训练和推理。

班级文明公约手抄报

经实验发现,训练过程中更新LLM参数能够提升最终音频理解任务的效果。

为了提升训练效率,摩尔线程采用了LoRA技术,仅更新2%的LLM参数。具体的模型参数规模如下:

摩尔线程 创始团队

该模型的训练数据MT5K(MT 5000h)由部分开源数据和内部数据构成,内部数据的语音识别标签均是由第三方云服务得到的伪标签。

语音识别的伪标签经过一个文本翻译模型后,得到语音翻译的伪标签,且没有对这些伪标签数据做任何的人工筛选。

具体数据来源和对应的规模如下:

摩尔线程将MooER与多个开源的音频理解大模型进行了对比,包括Paraformer、SenseVoice、Qwen-audio、Whisper-large-v3、SeamlessM4T-v2等。这些模型的训练规模从几万小时到上百万小时不等。

对比结果显示,开源模型MooER-5K在六个中文测试集上的CER(字错误率)达到4.21%,在六个英文测试集的WER(词错误率)为17.98%,与其它开源模型相比,效果更优或几乎持平。

特别是在Covost2 zh2en中译英测试集上,MooER的BLEU分数达到了25.2,显著优于其他开源模型,取得了可与工业水平相媲美的效果。

基于内部8万小时数据训练的MooER-80k模型,在上述中文测试集上的CER达到了3.50%,在英文测试集上的WER到达了12.66%。

与此同时,摩尔线程还得到一些有趣的结论,可以为数据资源和计算资源有限的开发者提供一些建议:

▼Encoder的选择。

分别对比无监督(Self-Supervised Learning)训练的W2v-bert 2.0、半监督(Semi-Supervised Learning)训练的Whisper v3、有监督(Supervised Learning)训练的Paraformer。

采用无监督训练得到的Encoder必须参与到训练过程中,否则模型很难收敛。

综合考虑模型效果、参数量以及训练和推理的效率,选择Paraformer作为Encoder。

▼音频建模粒度很关键。

尝试使用240ms、180ms和120ms的粒度进行建模,并发现这一参数对音频与文本的融合效果具有重要影响,同时会影响模型的最终效果和训练的收敛速度。

经过评估,最终选择每120ms输出一个音频Embedding。

摩尔线程智能科技有限公司

▼快速适应到目标垂类。

宁波华翔和华翔股份的关系

仅使用了140h~150h的英文数据进行训练,可以在6个不同来源的英文的测试集上取得一定效果。

同时尝试将任务迁移到语音翻译(AST)领域,取得了很好的效果。

相信这个方法同样也适用于小语种、方言或其它低资源的音频理解任务。

▼LLM对音频理解任务的影响。

在模型训练过程中采用LoRA技术对LLM参数进行更新,可以使训练更快收敛,并且最终取得更好的效果。

同时,音频理解任务上的效果也会随着基础LLM效果提升而提升。

更多技术细节,请参考技术文档:

https://arxiv.org/pdf/2408.05101


返回网站首页

本文评论
瞄准全球创作与时尚高地 华为海外发布会高光出圈_华为海外发布会地图事件
5月7日,华为在迪拜召开了全球创新产品发布会,共带来8款全新产品。此次发布会以“时尚,更跨越”“创作至美”为两大主题,带来了华为WATCH FIT3、新一代华为MateBoox X Pro、华为M...
日期:05-08
苹果公司拟向购买Vision Pro头显的员工提供25%折扣_苹果公司在中国的采购
在苹果公司混合现实头显Vision Pro开启预购前,在本周发给员工的一段视频中,苹果公司高管迈克·罗克韦尔(Mike Rockwell)和艾伦·戴伊(Alan Dye)讨论了该产品的开发和前景。负责头...
日期:01-20
派拓网络发布2024年亚太地区网络安全趋势预测
通信世界网消息(CWW)2024年1月22日,全球网络安全领导企业Palo Alto Networks(纳斯达克代码:PANW)(派拓网络)近日发布2024年亚太地区网络安全趋势预测。行业领导者提出了五项关键洞察...
日期:01-22
苹果市值最新「苹果市值今年涨近1万亿 第三季度出货5000万台iPhone」
苹果公司作为全球科技界的巨擘,今年的市值惊人地增长了近1万亿美元。小米11有必要换ultra不过,分析人士提醒,这家位于库比蒂诺的公司想要在2024年继续保持这样的增长速度将十分...
日期:12-22
马斯克推特doge「马斯克称微软使用推特数据非法训练其人工智能 威胁要提起诉讼」
4月20日消息:微软将在下周将 Twitter 从其广告平台中删除,这是在 Twitter 宣布它将开始向其 API 的用户(包括企业和研究机构)每月收取至少 42000 美元的费用近两个月后。凭借其...
日期:04-20
女说唱歌手key「说唱女歌手转行卖烧烤年入百万 称梦想和生活可以兼顾」
杨文是一位说唱歌手,曾在《中国新说唱》节目中展现自己的才华,她的原创歌曲在平台上有着八亿的点击量,但她却没有得到一分钱的收益。. 面对残酷的现实,她果断选择了飞往英国攻读...
日期:03-09
蔚来创始人死了「不熟悉领域别轻易发言-蔚来总裁发文疑似回击华为李小龙」
【】近日,蔚来汽车总裁秦力洪在社交媒体上发布了一条引人深思的动态,他提到:“在自己不熟悉的领域,不要轻易发言,否则很大概率专家变砖家。这是前几天人工智能大会主持人请一位清...
日期:07-10
十代酷睿降价「Intel 13代酷睿国行价格公布!有的涨400、有的降100」
Intel今天正式发布了Raptor Lake 13代酷睿处理器、Z790主板芯片组,国行价格也已公开。13代酷睿首发还是六款K、KF系列无锁频版本,具体价格如下——- i5-13600KF:2499元- i5-13600...
日期:10-05
2022米兰设计周即将揭幕 知名品牌科勒大展创意_2021米兰国际家具展
  作为全球时尚潮流爱好者盛宴的米兰设计周即将于2022年6月7日-6月12日登场,全球厨卫经典品牌科勒今年也将重返米兰设计周,带来与当代艺术家Daniel Arsham合作的沉浸式艺...
日期:09-17
可信云计算「云领创新 算启新篇 2023可信云大会在京召开」
2023年7月25日,由中国信息通信研究院(以下简称“中国信通院”)和中国通信标准化协会联合主办的2023年可信云大会在北京成功召开。大会以“云领创新 算启新篇”为主题,发布了《...
日期:07-25
5G官宣_同步放出外观渲染图 「6月6日发布-三星GalaxyF54」
早前有多个渠道透露,三星将在5月推出全新的三星Galaxy F54 5G机型,并且陆续有关于该机外观和配置方面的不少爆料传出。不过此前有消息称该机将推迟到6月发布。而现在有最新消...
日期:09-16
字节跳动发布趣抖音「字节赛马:抖音图文,内卷头条?」
声明:本文来自微信公众号“财经故事荟”(ID:cjgshui),作者:王红霞,编辑:陈纪英,授权转载发布。“ 舍不得孩子套不着狼”,这话用来形容字节的最新境况,再合适不过。在近日的2022年抖...
日期:10-21
一图看懂网易Q2财报:营收232亿元,Non-GAAP净利润54亿元_网易q2财报2021
极光 罗伟东嘀嗒回应约谈   讯 北京时间8月18日下午消息,网易(Nasdaq: NTES;HKEX: 9999)今日发布了截至6月30日的2022年第二季度财报。财报显示,网易第二季度净营收为232亿元,同...
日期:08-19
谨记京东金融App客服不会说的话 远离电信诈骗_京东金融客服电话打来干嘛
科技发展的日新月异,信息网络普及我们的生活,但这也让很多不法分子趁虚而入,侵蚀网络空间。他们利用电话、QQ、微信号、邮箱等作案手段不断翻新,给广大人民群众财产造成了损失。...
日期:03-06
网络动态_网络动态和静态是什么
  期中考试就要来了,不少人会觉得“哎,学生们又要做噩梦了”,其实,真正要做噩梦的是我们老师!   考前要忙着给学生出题,考试中要给学生监考,考完试还要阅卷!更噩梦的是,阅卷...
日期:07-05
2020网易未来科技人物大奖评选「AI如何破局,新能源弯道超车,2023网易未来大会完美收官」
12月23日,以“智能涌现·发现未来”为主题的2023网易未来大会完美收官。本次大会由杭州市人民政府和网易联合主办,杭州市经济和信息化局、杭州市商务局、杭州市滨江区人民政府...
日期:12-25
中国口腔护理品牌_国货之光!全面口腔护理品牌获人民日报等多家央媒认可
  近日,《人民日报》点赞了全面口腔护理品牌usmile在国内口腔护理教育上的突出表现,报道一发出,迅速吸引了人民网、中国网、中华网、中国青年网等媒体的广泛关注。   ...
日期:12-02
雷军建议考生高考后好好睡一觉:利用空档期去学习驾驶_雷军为高考学子加油
6月11日 消息:随着2024年全国高考的圆满结束,历经十年寒窗的学子们终于迎来了期待已久的放松时刻。百度新闻榜单今日,小米科技创始人雷军在社交媒体上分享了他的建议:“高考结...
日期:06-11
顺丰小程序网络异常「小程序、网页半个月崩两次!顺丰回应:已紧急处理 逐步恢复中」
12月9日,顺丰冲上微博热搜榜,彼时有网友有反馈称,顺丰小程序提示网络异常,网页打不开。然而仅仅过了3天,顺丰再次因为崩溃”上了热搜,出现的问题包括顺丰小程序无法使用,寄件、查件...
日期:12-12
QQ机器人第十代的发布:开启全新的智能群管时代「qq群机器人安卓版」
近日,QQ机器人迎来了历史性的时刻,第十代QQ机器人正式发布了。作为QQ机器人的重要升级,第十代QQ机器人不仅在外观和功能上进行了大幅度改进,还引入了全新的文字转图技术,为用户提...
日期:07-31