您的位置:首页 > 互联网

昆仑万维开源2千亿稀疏大模型天工MoE,全球首创能用4090推理_昆仑万维芯片

发布时间:2024-06-04 14:41:23  来源:互联网     背景:

2024年6月3日,昆仑万维宣布开源2千亿稀疏大模型 Skywork-MoE , 性能强劲, 同时推理成本更低。Skywork-MoE 基于之前昆仑万维开源的 Skywork-13B 模型中间 checkpoint 扩展而来,是首 个完整将 MoE Upcycling 技术应用并落地的开源千亿 MoE大模型,也是首 个支持用单台4090服务器推理的开源千亿 MoE大模型。

昆仑万维主要产品

开源地址:

Skywork-MoE 的模型权重、技术报告完全开源,免费商用,无需申请:

•模型权重下载:

○https://huggingface.co/Skywork/Skywork-MoE-base

○https://huggingface.co/Skywork/Skywork-MoE-Base-FP8

•模型开源仓库:https://github.com/SkyworkAI/Skywork-MoE

•模型技术报告:https://github.com/SkyworkAI/Skywork-MoE/blob/main/skywork-moe-tech-report.pdf

•模型推理代码:(支持8x4090服务器上8bit 量化加载推理) https://github.com/SkyworkAI/vllm

模型架构:

本次开源的 Skywork-MoE 模型隶属于天工3.0的研发模型系列,是其中的中档大小模型(Skywork-MoE-Medium),模型的总参数量为146B,激活参数量22B,共有16个 Expert,每个 Expert 大小为13B,每次激活其中的2个 Expert。

天工3.0还训练了75B (Skywork-MoE-Small) 和400B (Skywork-MoE-Large)两档 MoE 模型,并不在此次开源之列。

模型能力:

我们基于目前各大主流模型评测榜单评测了 Skywork-MoE,在相同的激活参数量20B(推理计算量)下,Skywork-MoE 能力在行业前列,接近70B 的 Dense 模型。使得模型的推理成本有近3倍的下降。同时 Skywork-MoE 的总参数大小比 DeepSeekV2的总参数大小要小1/3,用更小的参数规模做到了相近的能力。

技术创新:

为了解决 MoE 模型训练困难,泛化性能差的问题,相较于 Mixtral-MoE, Skywork-MoE 设计了两种训练优化算法:

1.Gating Logits 归一化操作

我们在 Gating Layer 的 token 分发逻辑处新增了一个 normalization 操作,使得 Gating Layer 的参数学习更加趋向于被选中的 top-2experts,增加 MoE 模型对于 top-2的置信度:

2.自适应的 Aux Loss

有别于传统的固定系数(固定超参)的 aux loss, 我们在 MoE 训练的不同阶段让模型自适应的选择合适的 aux loss 超参系数,从而让 Drop Token Rate 保持在合适的区间内,既能做到 expert 分发的平衡,又能让 expert 学习具备差异化,从而提升模型整体的性能和泛化水平。在 MoE 训练的前期,由于参数学习不到位,导致 Drop Token Rate 太高(token 分布差异太大),此时需要较大的 aux loss 帮助 token load balance;在 MoE 训练的后期,我们希望 Expert 之间仍保证一定的区分度,避免 Gating 倾向为随机分发 Token,因此需要较低的 aux loss 降低纠偏。

训练 Infra

淘宝图片侵权被投诉,申诉多久有结果

如何对 MoE 模型高效的进行大规模分布式训练是一个有难度的挑战,目前社区还没有一个最 佳实践。Skywork-MoE 提出了两个重要的并行优化设计,从而在千卡集群上实现了 MFU38% 的训练吞吐,其中 MFU 以22B 的激活参数计算理论计算量。

1. Expert Data Parallel

stargroup昆仑万维

sql server 2016对比2019

区别于 Megatron-LM 社区已有的 EP(Expert Parallel)和 ETP(Expert Tensor Parallel)设计,我们提出了一种称之为 Expert Data Parallel 的并行设计方案,这种并行方案可以在 Expert 数量较小时仍能高效的切分模型,对 Expert 引入的 all2all 通信也可以最 大程度的优化和掩盖。相较于 EP 对 GPU 数量的限制和 ETP 在千卡集群上的低效, EDP 可以较好的解决大规模分布式训练 MoE 的并行痛点,同时 EDP 的设计简单、鲁棒、易扩展,可以较快的实现和验证。

一个最简单的 EDP 的例子,两卡情况下 TP =2, EP =2, 其中 Attention 部分采用 Tensor Parallel , Expert 部分采用 Expert Parallel

2.非均匀切分流水并行

由于 first stage 的 Embedding 计算和 last stage 的 Loss 计算,以及 Pipeline Buffer 的存在, 流水并行下均匀切分 Layer 时的各 stage 计算负载和显存负载均有较明显的不均衡情况。我们提出了非均匀的流水并行切分和重计算 Layer 分配方式,使得总体的计算/显存负载更均衡,约有10% 左右的端到端训练吞吐提升。

比较均匀切分和非均匀切分下的流水并行气泡:对于一个24层 Layer 的 LLM, (a) 是均匀切分成4个 stage,每个 stage 的 layer 数量是:[6,6,6,6].(b) 是经过优化后的非均匀切分方式,切成5个 stage, 每个 stage 的 layer 数量是:[5,5,5,5,4] , 在中间流水打满的阶段,非均匀切分的气泡更低。

MoE Know-how

苹果代工厂昌硕科技

此外,Skywork-MoE 还通过一系列基于 Scaling Laws 的实验,探究哪些约束会影响 Upcycling 和 From Scratch 训练 MoE 模型的好坏。

一个可以遵循的经验规则是:如果训练 MoE 模型的 FLOPs 是训练 Dense 模型的2倍以上,那么选择 from Scratch 训练 MoE 会更好,否则的话,选择 Upcycling 训练 MoE 可以明显减少训练成本。

昆仑万维(300418)

4090推理

Skywork-MoE 是目前能在8x4090服务器上推理的最 大的开源 MoE 模型。8x4090服务器一共有192GB 的 GPU 显存,在 FP8量化下(weight 占用146GB),使用我们首创的非均匀 Tensor Parallel 并行推理方式,Skywork-MoE 可以在合适的 batch size 内达到2200tokens/s 的吞吐。

结语

我们希望本次开源的 Skywork-MoE 模型、技术报告和相关的实验结果可以给开源社区贡献更多的 MoE 训练经验和 Know-how,包括模型结构、超参选择、训练技巧、训练推理加速等各方面, 探索用更低的训练推理成本训更大更强的模型,在通往 AGI 的道路上贡献一点力量。


返回网站首页

本文评论
一年 200 亿美元都不赚?苹果这是中了什么邪?_苹果一年总收入
去年我们写过一篇文章,里面提到谷歌为了 “ 收买 ” 苹果,每年向苹果支付 150 亿美元,只为苹果默认使用谷歌的搜索引擎。原因也很简单——对于谷歌来说,有一半的搜索流量是来自...
日期:11-27
索尼发布HT-AX7便携音箱 支持分体环绕声
7月11日 消息:索尼推出的新款便携蓝牙音箱HT-AX7,以其分体环绕声设计和360度空间音频映射技术而备受瞩目。首先,HT-AX7采用了分体环绕声设计,主体音箱与两个小音箱通过磁吸连接...
日期:07-11
中航光电:液冷技术赋能数智经济向绿色低碳加速转型_中航光电液冷团队
通信世界网消息(CWW)2024年5月16-17日,世界电信和信息社会日大会暨系列活动在浙江宁波隆重举行,会议聚集了政府、运营商、设备商、学校等产学研用各领域专家,通过不同角度共享通...
日期:05-21
苹果 iOS / iPadOS 17 首个公测版新功能 / 新特性汇总「ipad 2017 ios15」
IT之家 7 月 14 日消息,苹果日前发布了 iOS / iPadOS 17 首个公测版本,在整合面向开发者的 Beta 3 更新之外,还引入了一些新的功能 / 特性。IT之家综合国外多家媒体报道,汇总信...
日期:07-14
网友实拍东北风雪天有多猛烈:市民手牵手被吹翻_东北刮大风下大雪叫什么天气
11月6日消息,气象台继续发布暴雪橙色预警,预计黑龙江、吉林、内蒙古东南部等地部分地区有大到暴雪。网友拍摄的视频显示,有市民手牵手被大风吹翻。专家提醒,雪天出行穿好防滑保...
日期:11-07
DigiTimes:苹果计划从较小设备开始逐步在 iPhone 和 iPad 上引入 microLED
5月11日消息:据 DigiTimes 今日的报告,苹果计划在未来推出一款配备 microLED 显示屏的 iPhone。与当前使用 OLED 显示屏的 iPhone 相比,这种显示技术将带来更高的亮度、更低的...
日期:05-11
京东副总裁周炯「周鸿祎探访京东总部感叹:刘强东是农村出来的苦孩子 吃过苦」
快科技5月20日消息,360创始人周鸿祎今天下午现身京东直播间,与京东集团首席执行官许冉共同参观了京东总部。在参观到关于《地板闹钟的故事》的场景时,周鸿祎表示没有听东哥讲过...
日期:05-21
B站诉争哔哩哔哩商标二审胜诉_b站小电视商标遭驳回
  10月2日,界面新闻获悉,哔哩哔哩商标遭食品商家抢注一案以B站二审胜诉告终。9月6日,北京市高级人民法院依法作出判决,“bilibili”商标为相关公众广为知晓,属于驰名商标,并依法...
日期:10-05
傅盛 这个产品形态一定会被淘汰-Sora会不会杀死剪映?_傅盛访谈
新浪科技讯 2月27日消息,由新浪财经出品、新浪财经App及新浪科技联合主办的《财之道》栏目今天下午上线。本期主题是《Sora出圈,普通人如何挖到“第一桶金”?》。picovr一体机...
日期:02-27
蜜雪冰城是否赴港上市?最新回应揭晓!_蜜雪冰城即将上市
据悉,蜜雪冰城最近回应了关于其计划赴港上市的传闻。该公司表示对这一传闻不予置评。 此前有媒体报道称,蜜雪冰城计划在明年赴港上市,筹资额约为 10 亿美元。消息人士透露,蜜雪...
日期:10-11
美国富国银行官网「多家客户称存款不见了 美国富国银行回应:技术故障」
好好的银行存款,突然就没有了?这是美国富国银行客户遭遇的惊魂一幕,不过后者表示这只是技术故障。据美国媒体报道,从3日开始,美国富国银行(WFC.N)大量客户通过社交媒体联系富国银...
日期:08-06
杭州女子遇“串串刺客”:吐槽6片菜叶6块钱「杭州串串自助」
淄博火出圈后,更多具有地方特色的烧烤也涌现出来。据四川观察分享,近日,正值新鲜虫草上市季,阿坝州的伙伴们坐不住了,挖出虫草直接烤来吃,慵懒的午后,可以再配上一杯青稞咖啡,吃上一...
日期:04-29
win10计算器怎么算反三角函数_微软Windows 10计算器更新:全面支持三角学、 函数(f)
  10月16日消息 Windows 10系统内置了一款计算器,也可以从应用商店下载,并且具有一些专用于更高级工作的工具。你可以使用Windows 10附带计算器应用来适当运算简单的数学函...
日期:06-24
人工智能与艺术融合的案例「人工智能艺术教育协同创新平台揭牌成立」
(原标题:人工智能艺术教育协同创新平台揭牌成立) “人工智能技术与艺术设计创作结合”,由华中科技大学光影交互服务技术文化和...
日期:12-11
知名早教机构一夜之间关闭7家门店,家长上万元课时费退费无门(早教机构被叫停了吗)
红星资本局原创   记者|俞瑶 强亚铣   责编|邓旆光 编辑 王禾   近日,知名儿童早教连锁品牌“金宝贝”被曝出重庆7家门店一夜之间全部关店的消息。   8月14日,重庆家...
日期:08-16
华为云与斗鱼战略合作发布,5G+云+AI为视频创新注入新动能
  11月14日,华为技术有限公司与武汉斗鱼鱼乐网络科技有限公司战略合作发布。斗鱼高级副总裁王岩、斗鱼创新部总监尹丹林、斗鱼流媒体产品负责人汪楚峰、华为云CTO张宇昕、...
日期:06-21
vivo」,S17系列山海青配色诠释东方美学审美于5月31日发布 「聚是山海青散作满天星
提及备受年轻人审美认可的国产手机系列,以一代代高颜值潮流设计方案俘获万千年轻人一眼倾心的vivo S系列必须榜上有名。5月25日,vivo官方微博宣布将于5月31日举行vivo S17系列...
日期:09-17
和iPhone 14新配色类似!小米Redmi 10橙色素皮版本「小米的橙色rgb是多少号」
3月8日消息,今天小米为自家的千元机Redmi 10推出了一款橙色配色,和iPhone 14新款黄色配色属于同一个色系的。Redmi 10这款橙色配色会采用类似皮革的纹理饰面,该机搭载高通骁龙6...
日期:03-09
花西子全套多少钱「花西子豪掷1万份花西币:免费给大家体验」
9月20日消息,继花西子发致歉信后,花西子官方微博今天发起抽奖活动。称大家近期的支持与建议,小西都收到了。为更好地服务大家,我们将抽100位送美妆礼盒,另外再抽10000人来体验我...
日期:09-21
会玩!小米手环8新增“体感拳击”模式「小米手环有体温功能吗」
快科技4月14日消息,今天,在将手环作为项链后,小米官方又向用户展示了手环的新玩法”。根据小米官方介绍,小米手环8将拥有全新的体感互动拳击”模式。iphone国内销量占比跑男台铃...
日期:04-15