您的位置:首页 > 互联网

马斯克烧60亿美元难题,国内大厂有解?开源MoE模算效率黑马登场,3.7B参数单挑Llama 3-70B

发布时间:2024-05-29 19:50:22  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】马斯克最近哭穷表示,xAI需要部署10万个H100才能训出Grok3,影响全球的大模型算力荒怎么解?昨天开源的这款MoE大模型,只用了1/19算力、1/19激活参数,性能就直接全面对标Llama3-70B!

如今,想训个SOTA的大模型,不仅缺数据和算力,甚至连电都不够用了。

最近马斯克就公开表示,因为苦于买不到足够的芯片,xAI只能推迟Gork2的训练和发布。

Grok3及更高版本,甚至需要10万个H100,按每台H100售价3万美元来算,仅芯片就要花掉28亿美元。

而且在未来几年,xAI在云服务器上可能就要花费100亿美元,直接逼得马斯克自谋生路,开建起自己的超级计算工厂。

那么问题来了,有没有一种可能,只用更少的算力,就让大模型实现更高的性能?

就在5月28日,浪 潮信息给业界打了个样——全面开源MoE模型源2.0-M32!

简单来说,源2.0-M32是一个包含了32个专家(Expert)的混合专家模型,总参数量达到了400亿,但激活参数仅37亿。

开源项目地址:https://github.com/IEIT-Yuan/Yuan2.0-M32

基于算法、数据和算力方面的全面创新,源2.0-M32的模型性能得到了大幅提升,一句话总结就是:模更强,算更优!

在业界主流的基准评测中,它的性能也能直接全面对标Llama3-70B!

32个小模型,挑战700亿Llama3巨兽

话不多说,先看跑分:

直观可见,在MATH和ARC-Challenge基准测试中,源2.0-M32的准确率分别为55.89和95.8,超过了Llama3-70B。

甚至在编码、MMLU中,M32实现了与Llama3-70B相当的性能。

在代码生成任务中,源2.0-M32的性能仅次于DeepseekV2和Llama3-70B,并远远超过其他模型。

与DeepseekV2相比,M32模型每个token使用的激活参数不到其1/4,计算量不足其1/5,而准确率达到其90%以上的水平。

而与Llama3-70B相比,模型激活参数和计算量的差距更大,但M32仍达到了其91%的水平。

在代码能力上,源2.0-M32不仅通过了近3/4的HumananEval测试题,而且在经过14个样本的学习之后,准确率更是提升到了78%。

就数学任务结果来看,源2.0-M32在MATH基准测试中得分最高。

与Mixtral-8×7B相比,M32的激活参数只有它的约0.29倍,但性能却高出了近一倍。

在GSM8K基准上,M32的性能与Llama3-70B非常接近,并且超过了其他模型。

比如在回答100-200之间,所有7的倍数的和是多少的问题中,M32和Llama3-70B的PK结果如下。

因为对中文理解上的优势,M32成功给出了正确答案,而Llama3-70B就不幸翻车了。

当然,面对英文的数学题,M32也没在怕的。

注意,这道题的题干中提出了一个要求——分母应该是有理数,M32非常准确地获知了这一点,因而把1/√3变成了√3/3。

这就有点意思了。

下面这道题,要求计算997的的逆元,也即使997乘以某个数,让它对100的求余为1。

源2.0-M32非常准确地理解了这个过程,而且通过一步步的迭代,准确地求解出了一个具体数值。

而看这边的Llama3-70B,很明显就没有理解题干,也没有构建出准确的求解关系,结果也是错的。

在多语言测试MMLU中,源2.0-M32的表现虽然不及规模更大的模型,但优于Mixtral-8×7B、Phi-3-mini和Llama3-8B。

最后,在推理挑战中,源2.0-M32在解决复杂科学问题方面表现出色,同样超越了Llama3-70B。

创新的架构和算法

源2.0-M32研发的初衷,就是为了大幅提升基础模型的模算效率。

为了提升模型能力,很多人都会沿用当前的路径,但在浪 潮信息看来,要让模型能力真正快速提升,就一定要从算法层面、从模型架构层面做探索和创新。

从模型名字中便可以看出,源2.0-M32是基于源2.0模型构建的,是包含32个专家的MoE模型。

它沿用并融合局部过滤增强的注意力机制(Localized Filtering-based Attention),通过先学习相邻词之间的关联性,然后再计算全局关联性的方法,更好地学习到了自然语言的局部和全局的语言特征。

因此,它对于自然语言的关联语义理解更准确,模型精度就得到了提升。

iphone 12 pro现货

论文地址:https://arxiv.org/pdf/2405.17976

图1左展示了源2.0架构通过引入MoE层实现模型Scaling,其中MoE层取代了源2.0中的前馈层。

图1右放大显示了M32的MoE层的结构,每个MoE层由一组单独的密集前馈网络(FFN)作为专家组成。

埃森哲的it规划

专家之前的门控网络将输入的token,分配给总共32个相关的专家中的2个(图中以4个专家做为示例)。

源2.0-M32结构示意图,其中MoE层取代了源2.0中的前馈层

其中,选择32个专家的原因是,比起8个、16个专家,32个专家的训练损失最低,效果最好。

最终,虽然在推理过程中,32个专家每次只激活2个,激活参数只有37亿,但是M32在处理逻辑、代码方面,精度可以对标Llama3-70B。

全新门控网络AttentionRouter

在LFA之后,针对MoE结构中核心的门控网络,团队做了另外一个算法创新。

需要明确的是,混合专家模型由两个核心部分组成:一是门控网络(Gate),二是若干数量的专家(Expert)。

这当中,门控机制起着最关键的作用。

它通常会采用神经网络,根据输入的数据特征,为每个专家模型分配一个权重,从而决定哪些专家模型对当前任务更为重要。

简言之,通过计算token分配给各个专家的概率,来选择候选专家参与计算。

显然,门控网络的选择机制,对于模型的推理能力、运行效率起着关键的作用。

当前,流行的MoE结构大都采用简单的调度策略——将token与代表每个专家的特征向量进行点积,随后挑选点积结果最大的专家。

然而,这一方法的弊端是,只将各个专家特征向量视为独立的,进而忽略了它们之间的相关性,无疑会降低模型的精度。

为了攻克这一难题,源2.0-M32创新性提出了新型的算法结构:基于注意力机制的门控网络(Attention Router),创造了一种专家间协同性的度量方法。

新策略可以在计算过程中,将输入样本中任意两个token,通过一个计算步骤直接联系起来。

这样一来,就可以解决传统的门控机制中,选择两个或多个专家参与计算时关联性缺失的问题。

最终选择的时候,这种策略选择的专家不仅绝对数值会比较高,两个专家协同的时候,自身的属性也会更相似。

举个通俗易懂的栗子:

就好比在一个医院中,主任要去做手术,一定是选择自己最这个领域最专业、且自己最熟悉的组员,这样大家的配合程度才会更好。

果然,与经典路由结构的模型相比,Attention Router让LLM准确率提升了3.8%。

总之,Attention Router算法可以让使得专家之间协同处理数据的水平和效能大为提升,从而实现以更少的激活参数,达到更高的智能水平。

算力消耗只需700亿Llama3的1/19

算力层面,源2.0-M32综合运用了流水线并行+数据并行的策略,显著降低了大模型对芯片间P2P带宽的需求,为硬件差异较大训练环境提供了一种高性能的训练方法。

正是基于算法和算力上创新优化,源2.0-M32实现了在三个阶段——预训练、推理和微调过程中,超高的模算效率。

这一突破,让MoE模型性能媲美Llama3-70B,也显著降低了单token训练和推理所需的算力资源。

训练

在智能水平相当的情况下,源2.0-M32微调/训练时每token所需的算力资源最低——仅为22.2Gflops/token。

相比起Llama3-70B的420Gflops/token,源2.0-M32的需求只有其1/19。

推理

在相同条件下进行测试后可以发现,M32处理每token所需算力为7.4Gflops,而Llama3-70B所需算力为140Gflops。

也就是说,源2.0-M32的推理算力消耗也仅是Llama3-70B的1/19。

微调

在微调阶段,M32只需消耗约0.0026PD(PetaFlops-Day),就可以完成对1万条平均长度为1024token的样本进行全量微调,而Llama3则需消耗约0.05PD的算力。

更直观来讲,源2.0-M32在支持BF16精度的2颗CPU服务器上,约20小时即可完成这1万条样本的全量微调。

而同样条件之下的Llama3-70B,完成全量微调约为16天。

近50%训练数据都是代码

众所周知,丰富、全面、高质量的数据集,是LLM预训练核心。

这次,源2.0-M32使用了2万亿(2T)token进行训练。

且代码数据占比最高,几乎近一半(47.46%),而且从6类最流行的代码扩充至619类,并通过对代码中英文注释的翻译,将中文代码数据量增大至1800亿token,占比约8.0%。

此外,占比第二高的预料数据来自中英文互联网(25.18%),有效提升了模型的知识实时性与跨领域、跨语言应用效果。

之所以加入了如此之多的代码数据,是因为其本身就具有非常清晰的逻辑性。

当模型在海量的代码数据上完成高强度训练之后,不仅可以在代码生成、代码理解、代码推理上取得出色的表现,而且还能在逻辑推理、数据求解等方面获得可观的提升。

源2.0-M32的性能随着训练数据的增加而增强,且过程十分稳定

模更强,算更优,是终解!

可以看出,浪潮 信息的MoE模型,在榜单上基本上达到了Llama3的水平,甚至有些可以超越Llama3。

然而最大的不同,就是浪 潮信息显著降低了单个token在训练推理和微调过程中的算力消耗。

由此,大模型训练和应用过程中的门槛也随之降低,高智能水平的模型就能更顺利地普及到千行百业当中去。

浪 潮信息之所以选择攻坚这个问题,也是他们长期深根沃土,服务行业客户的深刻认知。

在浪 潮信息看来,如今大模型智能水平提升,但背后所面临的算力消耗,却大幅攀升!

对企业落地,是极大的困难和挑战。

由此,找到一种模型水平高、算力门槛低的技术方式就变得很重要。这也是我们在开头所想强调的模算效率。这个指标不仅是大模型创新的关键,也是企业真正应用大模型的关键。

为什么这么说?让我们来举个例子。

如果Llama3-70B的每个token推理是140GFlops,用这个实际精度除以每token的推理算力,就可以得到一个模型的算力效率。

结果显示,Llama3的模型精度很高,但推理时的算力开销将极大。这也就意味着,在单位算力下,它的相对精度是比较差的。

与之形成鲜明对比的,就是Mistral的8×7B模型。虽然它和Llama3有较大差距,但它激活专家的参数量较小,所以模算效率反而更高。

追求模算效率,因为它意义非常深远。

比如,一个5000亿的Dense模型,训练20T token的话,需要的算力开销是巨大的。因此,如果能获得很高的模算效率,我们就能在更多token上,训练更大参数的模型。

第二点,从推理上来说,模算效率也极有意义。企业类用户的推理都需要本地化部署,需要购买算力设备。

在这种情况下,给定精度水平下的推理回报就会显出差别。

比如Mistral8×22B和Llama3-70B,二者的精度差别虽然不大,但前者的模算效率就会很高,

此前,业内更加关注的是单个维度,即平均精度的提升。

而在大模型进入快速落地的当下,我们显然就需要从模算效率上来考虑精度和开销了。

此外,模算效率的提升也让LLM微调的门槛和成本大幅降低,这就能让高智能模型更加易于企业应用开发,实现智能落地。

尤其是考虑到现在,微调已成企业应用大模型的关键环节。

因为它能结合特定业务场景和专业数据对LLM完成优化,帮助LLM在专用场景中提高生成准确性、可解释性,改善幻觉问题。

一如既往,全面开源

坚持开源,也是浪 潮信息一直以来的传统。

2021年,这家公司便开始布局大模型算法开发,同年首次发布了2457亿参数的源1.0中文语言大模型,并全面开源,在业界树立了千亿模型的新标杆。

值得一提的是,源1.0的MFU高达44%,可见算力利用率非常高。

而当时GPT-3的MFU只有22%,也就是说有近80%的算力被浪费掉了。

彼时的浪 潮信息团队还开源近5TB的中文数据集,在国内100+个大模型厂商中,有近50个LLM的训练中得到应用。

之后,历时近2年研发,2023年,浪 潮信息将千亿参数基础大模型从1.0升级到源2.0。

源2.0包含了三种参数规模,1026亿、518亿、21亿,并在代码编程、逻辑推理、数学计算等领域展现出领先的性能。

论文地址:https://arxiv.org/ftp/arxiv/papers/2311/2311.15786.pdf

这一次,升级后的2.0版本同样采取了全面开放开源的策略,全系列模型的参数、代码,均可免费下载和商用。

源2.0也在不断进行版本更新,并针对代码能力、数理逻辑、推理速度等方面完成深度优化。

浪 潮信息还提供了丰富的预训练、微调以及推理服务脚本,并与流行框架工具全面适配,比如LangChain、LlamaIndex等。

正如前面所述,源2.0-M32 将继续采用全面开源策略,又将给开源社区添砖增瓦,留下浓墨重彩的一笔。

首席科学家吴韶华表示,当前业界大模型在性能不断提升的同时,也面临着所消耗算力大幅攀升的问题,这也对企业在落地应用大模型时带来了极大的困难和挑战。

降低应用门槛

除了全面开源之外,浪 潮信息还通过发布方便可用的工具,进一步降低了大模型应用的门槛。

今年4月,企业大模型开发平台元脑企智(EPAI)正式推出,为企业LLM训练提供了更加高效、易用、安全的端到端开发工具。

从数据准备、模型训练、知识检索、应用框架等系列工具全覆盖,且支持多元算力和多模算法。

EPAI提供了非常丰富的基础数据,规模达1亿+,同时提供自动化的数据处理工具,帮助行业伙伴和企业客户整理行业数据和专业数据,减少针对不同落地场景中出现的幻觉。

对于企业来说,甚至是企业小白用户,EPAI可以帮助他们高效部署开发AI应用,能够释放极大的商业价值。

如今,源2.0-M32也将集成到EPAI大模型库,帮助企业加快AI应用落地的步伐。

在算力愈发紧俏的当下,浪 潮信息用模更强 算更优的M32交出了答卷,让整个业内为之振奋。

接下来,我们等待它的更多惊喜!

参考资料:

https://github.com/IEIT-Yuan/Yuan2.0-M32

https://huggingface.co/IEITYuan/Yuan2-M32-hf

https://modelscope.cn/models/YuanLLM/Yuan2-M32-hf/summary


返回网站首页

本文评论
4999元起 荣耀MagicBook 14 2023笔记本发布:5项世界第一_荣耀magicbook14 2021上市时间
快科技4月13日消息,荣耀今日下午发布了MagicBook 14 2023笔记本,升级13代酷睿标压处理器,号称是PCMARK10续航第一、边框最窄、性能遥遥领先、护眼最全和智慧互联功能最强大的14...
日期:04-13
外卖员被打赏1.1元以为求救秒报警 女子曾眨眼暗示:结果尴尬「外卖小哥被打赏」
10月28日,安徽六安陆女士是一位宝妈,中午的时候她点了外卖,在把孩子哄睡着之后,她去门口领了外卖。由于害怕把孩子吵醒,陆女士眨眼掉头暗示会给外卖小哥好评,外卖小哥表现得非常配...
日期:11-11
女子被辞退补偿金是3千枚硬币 公司:她一天到晚就在那玩手机
10月27日消息,据报道,一女子被公司辞退,公司发了三千枚硬币用作赔偿,当事人表示感觉自己被侮辱。对此,公司工作人员表示,该员工一天到晚就在那玩手机,并且法律也没规定说不允许发硬...
日期:10-27
ChatGPT新增朗读功能,可以语音播报生成结果
划重点:xbox哪些游戏支持跨平台华强北买苹果12手机便宜吗...
日期:03-05
iPhone 15预售情况曝光 郭明錤:这款卖得最好_iphone15什么时候发布
凤凰网科技讯 北京时间9月18日消息,苹果公司的新一代iPhone 15系列手机已在上周五开启预订。天风国际证券公司知名分析师郭明錤公布了首个周末的预售观察,称iPhone 15 Pro Max...
日期:09-18
小布夏日魔法季到来,ColorOS 玩法丰富效率更高
  随着技术的逐渐成熟,手机的智能语音助手已经不只能帮助用户处理日常需求,而且还越来越积极地面对用户更多场景化需求。近日,ColorOS Breeno语音携手 QQ 音乐送福利,将实用...
日期:07-14
东营手机「东营手机号码出售信息」
随着时代的发展和科技的进步,手机已经成为我们日常生活中不可或缺的一部分。其中,是一个备受关注的品牌,它的出现为我们的生活带来了便利与创新。新日战神k7视频作为一家本土手...
日期:05-29
东方甄选回应养殖虾当野生虾卖 官方回应:很抱歉,我们也被骗了
东方甄选是一家以直播销售为主的电商平台,主打高品质、高性价比的商品。然而,近日有消费者指出东方甄选直播间以假乱真,将养殖的虾冒充野生的虾来卖,涉嫌虚假宣传和欺诈。据媒体...
日期:03-15
苹果设计师库克「库克关于苹果生成式AI计划说辞毫无新意 引发股东不满」
划重点:- 股东对苹果生成式人工智能计划的回应不佳,因为蒂姆·库克反复使用相同言辞。- 库克在多次财报电话会议上几乎用相同的措辞陈述苹果的人工智能战略,引发关注。- 尽管...
日期:11-04
彻底告别3999元!小米15参数出炉:1.5K小直屏、无潜望长焦_小米15s
快科技5月17日消息,今年高通的进度再一次提前,首款骁龙8 Gen4终端会在10月份正式登场。按照以往惯例,这次全球首发大概率依然是小米15系列拿下。据博主数码闲聊站最新爆料,小米1...
日期:05-18
研究机构:搭载Arm芯片的笔记本电脑市占率将在五年内达25%
2月10日消息,据外媒报道,研究机构Counterpoint Research预计,搭载Arm芯片的笔记本电脑将在五年内占有25%的市场份额。Counterpoint Research的数据显示,2022年全球PC市场的出货...
日期:02-13
三星 W23 5G 系列旗舰折叠屏新机将于 10 月 21 日正式发布「三星w2021折叠手机新款心系天下」
10月11日消息:三星 W23 5G 系列官宣将于10月21日19:00正式发布。根据此前公布的消息, W23系列将包含两款手机,分别是三星 W23和三星 W23Flip,由Galaxy Z Fold4和 Galaxy Z Flip...
日期:10-17
男子高速应急车道停车上厕所 老婆一脚油门开走 科普:扣9分「高速应急车道停车撒尿会被拍吗」
7月2日傍晚,一位男子在G25长深高速湖州段的应急车道上行走,高速交警赶忙赶到,将男子带上了警车,此时他已经徒步了1公里多。原来,他跟老婆一起开车,前面自己开久了感到十分疲劳,就把...
日期:07-18
数字乡村的“科技范儿” | 北京电信助力延庆农业驶上数字高速路
通信世界网消息(CWW)金秋十月,是丰收的季节。10月25日,记者来到北京延庆八达岭镇,道路两旁红彤彤的苹果挂满枝头,里炮村几千亩苹果绘就迷人的丰收之美。在距离不远的旧县镇绿富隆...
日期:10-27
云南泼水节现场到处都在拔拖鞋:路面湿滑 拖鞋变护膝_云南泼水节攻略
近日,云南泼水节狂欢现场成为了热门话题。今年的泼水节名场面如约而至,吸引了众多游客和网友的关注。在狂欢的街道上,随处可见人们尽情玩耍的场景,其中最为引人注目的便是那些拔...
日期:04-15
联想服务器st558「联想ThinkEdge SE455 V3服务器面世!以高效节能的算力助推边缘智能革新!」
10月24日,第九届联想创新科技大会(Lenovo Tech World 2023) 盛大开幕。为加速生产力革命,打造下一代基础设施,联想重磅发布全新ThinkEdge SE455 V3 边缘服务器产品。联想ThinkE...
日期:10-27
五一假期最后一天 下个假期不远了:端午连休3天不调休!_五一假期最后一天人多吗
快科技5月5日消息,五一假期今天已经接近尾声剩最后一天了,不仅如此,下周还要上6天班,5月11日(星期六)也要上班。蔚来产能提升对于假期的结束不少网友纷纷表达不舍,差点忘了有个班要...
日期:05-05
vivo将在 11 月 8 日 发布 OriginOS 3「vivo originos发布会」
10 月 31 日讯:vivo宣布,将在 11 月 8 日 14:30 发布 OriginOS 3 。京东猪脸识别系统折叠屏手机销量雷军电动是小米的吗2020款macbook pro 13.3使用技巧...
日期:11-07
游客借位拍照与大佛击掌 独特拍照方式引发围观
2月17日,一段网络流传的视频在社交媒体上引起了广泛关注。这段视频拍摄于山西大同的一处著名景点,展现了游客们整齐划一地举起手掌,通过借位拍照的方式,仿佛与大佛进行了击掌。...
日期:02-19
富士康招工预报名已超10万!iPhone14就要发货了_富士康急招20万人保iPhone13发售
中关村在线消息:11月18日,据相关爆料,富士康航空园区的预招工总报名人数超过了10万,“名额终于满了,目前招工工作暂时停了。”这意味着,持续多次的紧锣密鼓的富士康招工工作,已经告...
日期:11-23