您的位置:首页 > 互联网

性能超越LLaMA2-7B!AI模型JetMoE-8B训练成本不到10万美元_ai模型训练过程

发布时间:2024-04-17 17:53:54  来源:互联网     背景:

4月17日 消息:JetMoE-8B是一款采用稀疏激活架构的人工智能模型,其性能卓越且训练成本不到10万美元,令人惊讶的是,它的表现甚至超越了LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B。

JetMoE-8B由24个块组成,每个块包含两个MoE层:注意力头混合(MoA)和MLP专家混合(MoE)。每个MoA和MoE层有8个专家,并且每个输入令牌激活2个专家。这种独特的设计使得在不牺牲性能的情况下显著降低了计算成本。

值得一提的是,尽管JetMoE-8B的总参数量达到80亿,但由于其特殊的架构设计,每个输入令牌仅激活约22亿参数,从而大大减少了总体的计算需求。

2021-2025年全球晶圆产能报告

此外,JetMoE-8B的训练完全依赖于公开数据,并且整个训练过程,包括代码,都是完全开源的,这无疑为AI领域的研究和应用提供了极大的便利。

ai模型训练过程

ai模型训练平台

培育数字经济发展新动能

在与Open LLM排行榜相同的评估方法下,JetMoE-8B的性能表现优于LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B,这一结果无疑是对其高效性能的最好证明。

与此同时,与具有类似训练和推理计算的模型(如Gemma-2B)相比,JetMoE-8B展示了更优异的表现。这不仅证明了其在性能上的优势,也展示了其在成本效益上的显著优势。

ai训练模型软件

nova6手机图片

模型地址:https://huggingface.co/jetmoe/jetmoe-8b


返回网站首页

本文评论
水中仰漂浮要点讲解「仰望U8水中第一视角感受下:稳如船 能玩水」
快科技11月6日消息,在仰望U8的官方宣传片中,在水面行驶的画面引发网友感叹:仰望U8这是能当船开了。 确实也如此,近日,新车评网就在2米深的池塘测试了仰望U8。 视频中可以看到...
日期:11-06
腾讯对美团持股「腾讯“分手”传闻,“吓丢”美团千亿市值?」
题图|视觉中国  作者|黄青春  今天(8月16日)午后,“腾讯或将出清美团股票”的消息在网上不胫而走,美团港股急转直下,盘中跌幅一度扩大超 11 %,对应市值蒸发一度超千亿港元。美团...
日期:09-26
《奇幻夜狂想曲》微电影首映 三星Galaxy S23系列邀你探索上海迪士尼度假区的神奇世界
2023 年 5 月 19 日,三星与上海迪士尼度假区携手打造的微电影《奇幻夜狂想曲》在阿那亚电影周成功首映。该微电影通过三星手机的镜头,在上海迪士尼度假区的奇妙世界中,讲述了迪...
日期:05-23
苹果发布 visionOS 1.0.3 软件功能更新,Vision Pro 头显新增密码恢复选项_ios版visio
2 月 13 日消息:苹果今日发布了 Vision Pro 头显的 visionOS 1.0.3 软件更新, 这是该设备发布后首次功能更新。本次更新于上周发布的 1.0.2 更新两周后推出。用户可在设置应...
日期:02-13
软银集团arm「AI革命即将到来 我们正准备主动出击 软银集团-CFO」
至少在过去 6 年中,软银总裁孙正义一直是人工智能的积极倡导者,早在 OpenAI 的 ChatGPT 让全世界意识到 AI 的潜力之前。但最近在向 AI 初创公司投资的热潮中,软银在投资领域中...
日期:09-28
小米14pro多少寸「颜值可期!曝小米14 Pro配备极窄边框曲面屏」
据数码闲聊站透露,小米14 Pro部分设计和配置信息已曝光。该机型将采用双曲面屏幕和极窄边框设计,正面屏幕观感不会差。此外,5000万像素超大底三摄镜头排列位置与小米13系列相似...
日期:06-08
一周DIY市场分析:CPU降价 SSD止跌 内存即将开涨_ssd降价趋势
稿源:中关村在线魅族16图片以及价格智慧医院体系架构由于暑假已经开始两周,不少的用户已经在陆续准备学业甚至准备开学装备的节奏中,笔记本市场目前价格都在往下走,暑促正式到来...
日期:09-24
江苏女掌柜卖新娘头饰,20年惊艳1000万场婚礼
声明:本文来自于微信公众号 天下网商(ID:txws_txws),作者:王卓霖,授权转载发布。提起2003年,你会想到什么?有人说非典,疫情肆虐,线下经济受困;有人说开创,淘宝网创立,线上经济快速增长。...
日期:05-12
紧凑型音响Sonos」,Era 100中国上市 「经典再升级「solo100音箱」
8月8日,畅销音响Sonos One系列的升级款 Sonos Era 100中国上市,续写下一代智能音响的创新音效和设计的全新篇章。Era 系列由屡获殊荣的艺术家和工程师调音,提供扩展的连接选择,...
日期:09-09
马斯克星舰测试今日消息「马斯克星舰今晚第三次试飞 将首次尝试新技术」
3月14日 消息:今日,马斯克旗下美国太空探索巨头SpaceX在备受瞩目的声明中公布,计划于3月14日进行星舰(Starship)的第三次试飞。此次发射的关键时间窗口设定在北京时间今晚20:00...
日期:03-14
目前有16款第一方游戏正在开发中 Netflix将于2023年发布40多款手游
3 月 21 日消息,Netflix 游戏副总裁 Leanne Loombe 表示,计划在 2023 年内再推出 40 款游戏,到年底将提供 95 款游戏。该公司从 2021 年底开始向 Netflix 订阅用户通过 Android...
日期:10-06
DXO公布iPhone 14前摄得分:144分 全球排名第四
今晚,DXOMARK公布了iPhone 14的前置摄像头评测数据,其拿下了144分的总成绩,在前摄排行中位列第四。前面是iPhone 14 Pro Max、iPhone 14 Pro、华为Mate50 Pro,这三款手机均为145...
日期:03-14
为什么iPhone只有P大写 原因揭晓:来自“驼峰命名法”_为什么iphone的p是大写
快科技11月6日消息,iPhone作为全球手机行业的领头者,大家如今已经再熟悉不过了,但今天一则热搜却突然引起了大家的深思为什么iPhone只有P大写?虽然经常见到,但很多人见到这个话题...
日期:11-07
AI智能世界「2022世界人工智能大会开幕,比邻星球邀您共建社交元宇宙」
2022 世界人工智能大会(WAIC2022)于 9 月 1 日- 3 日在上海举行,元宇宙作为虚实融合的下一代互联技术,成为本届大会的“硬核”亮点之一。比邻星球受邀参加本届大会,带来AI虚拟...
日期:09-12
b站q4财报「B站Q3财报:在市场风浪中迈入“正周期”」
声明:本文来自于微信公众号 读娱(ID:yiqiduyu),作者:零壹,授权转载发布。11月29日,哔哩哔哩(以下简称B站)发布了2023年第三季度财务报告。业绩方面,其Q3总净营收为58亿元,同比2022年...
日期:12-09
特斯拉储能超级工厂落户上海 计划年产1万台储能电池_寻找中国特斯拉专题之一:储能
4月10日消息,据证券时报报道,4月9日,中国(上海)自由贸易试验区临港新片区管理委员会与特斯拉公司进行了签约,特斯拉储能超级工厂项目落户临港新片区。鸿蒙系统5g手机用6000毫安电...
日期:04-10
布局农业板块-马云最新动作曝光_马云考察农业
 7 月 31 日消息,信息显示,近日一家名为一米八海洋科技(浙江)有限公司成立,注册资本高达 1.1 亿,该公司的法定代表人为邓中华;经营范围涵盖水产养殖、食品销售、水产品冷冻加工、...
日期:09-19
女子为买房假离婚 结局令她彻底傻眼...「女子为购买新房假离婚后人财两空 丈夫已经有了新欢拒绝复婚」
据北京市第三中级人民法院消息,白女士和黄先生,一对曾经恩爱的夫妻,为了规避购房限制,选择了“假离婚”。他们简单地拟定了离婚协议,将名下财产全部划归黄先生,然后办理了离婚手续...
日期:02-07
矿潮退去!聪明的矿卡 已经伪装成了你喜欢的模样
天下熙熙皆为利来,天下攘攘皆为利往。玩家显卡矿老板,突如其来的挖矿热潮,将三者紧紧的席卷在了一起。矿潮来时,玩家与矿老板之间是显卡竞争者的关系,只不过玩家是弱势的一方;矿潮...
日期:11-28
亚马逊among us「亚马逊将成为Arm IPO主要投资者,为何如此青睐Arm?」
分析Amazon Web Services的特点之一,即是其在整个云基础设施中使用定制芯片,包括ArmCPU。对于AWS和Arm的关系,英国科技媒体theregister撰文做了分析。因此,至少据路透社报道,亚马...
日期:08-14