您的位置:首页 > 互联网

元象实业「元象XVERSE-65B:国内最大开源模型来了,高性能无条件免费商用」

发布时间:2023-11-06 23:02:42  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

国内此前开源了多个70到130亿参 数大模型,落地成果涌现,开源生态系统初步建立。随着智能体等任务复杂性与数据量的提升,业界与社区对更大模型的需求愈发迫切。

研究表明,参数量越高,高质量训练数据越多,大模型性能才能不断提升。而业界普遍共识是达到500到600亿参数门槛,大模型才能智能涌现,在多任务中展现强大性能。但训练此量级模型成本高昂,技术要求较高,目前主要为闭源付费提供。

在国外开源生态中,Llama2-70B 和 Falcon-180B 等标杆模型为有条件开源,设置了月活跃用户数或收入等商用上限,并因缺乏训练数据在中文能力上有明显短板。此外,美国新近颁布的 AI 芯片禁令,或将进一步限制中国大模型产业发展的速度。业界迫切呼吁一个高性能国产大模型,填补生态空白, 为中文应用提供更强大的理解、推理和长文生成能力。

在此背景下,元象 XVERSE 公司宣布开源650亿参数高性能通用大模型 XVERSE-65B,并且无条件免费商用,业界尚属首次。此外,13B 模型全面升级,提高小模型能力上限。这将让海量中小企业、研究者和 AI 开发者更早一步实现大模型自由,根据其算力、资源限制和具体任务需求,自由使用、修改或蒸馏元象大模型,推动研究与应用的突破创新。

象元尺寸

模型地址:https://huggingface.co/xverse/XVERSE-65B

元象 XVERSE 创始人姚星表示:面对研发时间紧、算力持续短缺等挑战,团队依靠丰富经验,三个月内研发出多款高性能7B、13B 模型,并最早为社区献上一个大有可为的65B 模型,为研究、商业及生态创造三重价值。

具体而言,65B 模型能够有以下积极影响:

  • 研发上,65B 将为新技术、新工具、性能优化到模型安全提供大杠杆,让社区快速累积经验,也有助于推动国家科技自主可控的长远目标。

  • 商业上,海量中小企业能以零成本用上大工具,可突破局限,推动应用显著创新。元象也能深入了解用例、安全模型部署和潜在机会。

  • 在开发者生态上,社区能充分发挥组织协同优势,推动研发应用的寒武纪大爆发。

开源可免费商用大模型图谱

全链条自研,多项技术创新

XVERSE-65B 底座模型在2.6万亿 Tokens 的高质量数据上从头训练,上下文窗口扩展至16K,支持中、英、俄、法等40多种语言。

元象坚持高性能定位,显著提升了65B 三方面能力:

  • 理解、生成、推理和记忆等基础能力,到模型的多样性、创造性和精度表现,从优异到强大;

  • 扩展了工具调用、代码解释、反思修正等能力,为构建智能体奠定技术基础,提高模型实用性;

  • 显著缓解7B、13B 中常见且可能很严重的幻觉问题,减少大模型幻觉,提高准确性和专业度。

元象大模型系列均为全链条自研,涵盖多项关键技术与研发创新:

1. 复杂分布式系统设计:借鉴团队研发腾讯围棋 AI绝艺、王者荣耀 AI绝悟等大系统上的丰富经验,自研高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台与框架协同等关键技术,打造高效稳定的训练系统, 千卡集群峰值算力利用率达58.5%,位居业界前列。

2. 全面提升性能:65B 训练中采用 FlashAttention2加速计算,3D 并行基础上采用虚拟流水线(virtual pipeline)技术,降低较长流水线产生过高气泡率,提升计算推理效率;上下文窗口长度从8K 逐步提升到16K,使其不仅能出色完成复杂任务,包括长文理解、长文生成和超长对话,还拓展了工具调用、代码解释及反思修正能力,能更好构建智能体(AI Agent)。

3. 极致提升训练稳定性:因计算量庞大,通信拥塞、芯片过热或计算节点故障成为65B 训练常态,初期出现过一周最高八次故障的情况。通过集群基础设施运营、资源调度、训练框架和调度平台协同等持续优化,元象打造出高稳定、低中断、强容错的训练系统,将每周有效训练率提升至98.6%。

推特拖欠供应商款项 被索赔260万元是真的吗

此外,在接近1.6万亿 Tokens 的模型训练中期,损失函数产生了 NaN 值,可能导致训练中断。通常情况下,业界一般会在分析后删除与之相关的数据区间。而团队根据经验判定这是模型自然演化,选择不删除数据,直接跳过相关参数更新,最终 NaN 值问题解决。后期对参数值、激活值、梯度值等中间状态的进一步分析表明,该问题可能 与模型最后一层 transformer block 激活值的最大值变化有关,并会随最大值的逐渐降低而自行解决。

解决 NaN 值问题研发经验

元象科技

全面测评65B 性能媲美 GPT3.5

为确保业界能对元象大模型性能有全面、客观、长期认知,研究人员参考了一系列权威学术测评,制定了涵盖问答、理解、知识、推理、数学、代码等六个维度的11项主流权威测评标准,将持续使用并迭代。

XVERSE-65B 在 国内尚无同量级模型可对比,在与国外标杆对比测评中,部分指标超越、综合性能媲美 GPT3.5;全面超越开源标杆 Llama2-70B 和 Falcon-180B ;与 GPT4仍有差距。

XVERSE-65B 评测

全面升级的 XVERSE-13B-2,比同尺寸模型增加大量高质量数据,训练数据高达3.2万亿, 极大提升了小模型的能力上限。它文理兼修,保持了文科优势,问答提升18%,理科长足进步, 代码提升149%、数学提升198%,在测评中全面超越了 Llama2、Baichuan2等国内外开源标杆。

升级版 XVERSE-13B-2测评

开启大模型应用新时代

元象大模型可在 Github、Hugging Face、魔搭 ModelScope 等多平台搜索XVERSE下载,简单登记后即可无条件免费商用,能满足中小企业、科研机构和个人开发者绝大部分的应用与迭代需求。

元象同时提供模型训练、推理、部署、精调等全方位技术服务,赋能文娱、金融、医疗等各行各业,帮助在智能客服、创意写作、精准推荐等多场景打造行业领先的用户体验。2023年10月,腾讯音乐率先宣布与元象大模型建立战略合作,共同推出 lyraXVERSE 加速大模型、全面升级其音乐助手AI 小琴,未来还将持续探索 AI 与3D 前沿技术,引领音乐娱乐创新方向。

姚星表示:真实世界的感知智能(3D),与真实世界的认知智能(AI),是探索通用人工智能(AGI)的必由之路,也是元象持续探索前沿科技的动力。XVERSE 开源系列致力于推动大模型国产可替代与持续技术创新,为实体经济、数字经济发展注入强劲动力。我们期待与企业和开发者携手,共同开启大模型应用新时代!

关于元象

元象 XVERSE 于2021年初在深圳成立,是国内领先的 AI 与3D 技术服务公司,致力于打造 AI 驱动的3D 内容生产与消费一站式平台,愿景为定义你的世界。

官方网站:www.XVERSE.cn

元象累计融资金额超过2亿美元。元象创始人姚星是前腾讯副总裁和腾讯 AI Lab 创始人、国家科技部新一代人工智能战略咨询委员会成员。

在3D 与 AI 技术领域,元象拥有深厚积累与完整布局。在3D 领域,已自主研发出行业引领性的端云协同3D 互动技术,开创零门槛(轻)、一站式(快)、高品质(美)全新3D 体验;在 AI 领域,开源中国最大参数可商用大模型 XVERSE-65B,旨在推动大模型国产可替代与行业应用发展。


返回网站首页

本文评论
安全平台手机移动版app_移动应用程序安全委员会特邀更美APP加入,全力保障用户隐私安全
  更美APP创立于2013年,在国内消费医疗领域具有非常高的知名度。更美APP通过平台向用户提供微整形、眼科、整形、齿科等消费医疗服务,帮助更多爱美人士完成变美心愿。  ...
日期:07-14
印度制造赢了!该国手机产量累计突破20亿部 苹果加大投资全力押宝
快科技8月15日消息,印度制造赢了,至少他们是这么认为,所以还特别公布了相关成绩。蜂窝技术是什么通信的覆盖技术在印度制造倡议下,2014-2022年印度制造手机的累计出货量突破20亿...
日期:08-15
何小鹏回应与大众汽车合作 期待大和小的携手「何小鹏与小鹏汽车」
7月26日,大众汽车品牌与小鹏汽车签署技术框架协议。在合作的起步阶段,双方计划针对中国的中型车市场,共同打造两款大众汽车品牌的电动车型。这两款专为中国市场定制的新车将丰...
日期:07-27
学霸又拿AI大奖,李彦宏、任正非们高薪安排上?
  近日,由教育部三大教指委、全国高等学校计算机教育研究会主办的2019“中国高校计算机大赛-人工智能创意赛”(简称C4-AI)总决赛圆满结束,共有来自全国37所高校的43支队伍...
日期:10-06
拉萨市主干道“一路绿灯” 千方科技打造高原数字化治理“样本”
  “最近几周,早晚高峰期间只要保持一定的行驶速度,一路遇到的都是绿灯,感觉顺畅多了!”近日,拉萨市出租车司机罗布桑珠在接受《西藏商报》记者采访时说。   “一路绿灯”...
日期:09-18
数据赋能 万位智联-万位科技亮相2019上海5G创新发展峰会_上海大数据产业创新峰会
  3月23~25日,2019上海5G创新发展峰会暨中国联通全球产业链合作伙伴大会在上海成功举行。作为中国联通的重要合作伙伴,万位科技以“一切皆有位置”为愿景,将其前瞻性的解决...
日期:01-25
qlc固态硬盘能用几年「消失了5年的128TB SSD硬盘回来了:还是QLC闪存」
与HDD机械硬盘相比,SSD硬盘除了在价格上吃点亏,其他方面都是完胜,最大容量上也早就超过了,很多厂商都推出了30.72TB的SSD硬盘,目前能看到的容量记录是128TB,三星5年前展示过一次,现...
日期:09-21
平安健康:2022年上半年营收28.3亿,年付费用户数超4000万人_中国平安健康互联网
8月18日消息,平安健康公布2022年中期业绩报告。报告期内,平安健康总收入达28.3亿元,归属于公司所有者的净亏损为4.24亿元,上年同期为亏损8.8亿元,亏损同比大幅收窄51.8%。毛利率...
日期:08-19
腾讯总监陈诚回应UC质疑:数据来自独立第三方
  腾讯手机QQ浏览器产品负责人陈诚总监称,市场份额是第三方机构说了算,腾讯没有能力也没有时间去干预。(TechWeb配图)   10月24日消息,UC今日发布《致合作伙伴书》,称腾讯...
日期:07-24
东芝笔记本电脑_东芝笔记本电脑怎么连接无线网wifi
东芝(Toshiba)是日本知名的电子公司,在笔记本电脑领域也有着不错的表现。具有性能强劲、设计精美、品质优良等特点,备受消费者喜爱。本文将介绍的品牌历史、产品线、特点以及市...
日期:05-29
亏上热搜!人们为啥不爱吃海底捞了?“最牛服务员”CEO首张成绩单,透露重大信号
文 |;黎灵希 罗茂林   8月14日晚间,海底捞发布业绩预告,预计上半年收入不低于167亿元(人民币,如无标明,下同),预期净亏损额约在2.25亿元至2.97亿元之间。   这是“最牛服务员”...
日期:08-17
系统模型化「一段话让模型自曝系统提示词!ChatGPT、Bing无一幸免」
声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:西风,授权转载发布。ChatGPT语音对话,发布即惊艳全网——凭借表达自然流畅,嘎嘎乱杀一众AI对话产品。格力空调的芯片是进口的...
日期:10-22
女孩追热剧加“假男主”账号被骗86万 已追回38万多:网友直呼太傻太天真
四川西昌女孩小星在追看一部网络热播的电视剧。为了追星,小星在网上加了一个所谓该剧男主角的账号,但对方自称是该明星的律师”,说她涉嫌泄露该明星的隐私。一加和find为洗清自...
日期:04-14
全国多地华为门店抢购Mate60 消费者排队下单预定
华为Mate60Pro于9月3日18:08分正式在各个渠道上市,这款新机的发布引起了全国各地华为门店的排队热潮。消费者们争相前来,抢先到华为门店体验、购买新机,现场十分火爆。(Mate60,图...
日期:09-04
男子点30块外卖结果没了2000元 小心这种新型诈骗!「外卖点餐骗局」
近日有媒体报道,柴先生点了一份外卖,十分钟后收到了自称商家的电话,说他点的黑椒猪排没有了,需要更换,而且柴先生还需要补差价。由于对方给出的信息和自己的订单一模一样,所以柴先...
日期:06-19
贾跃亭法拉第公司上市吗「法拉第未来执行董事长辞职 贾跃亭又将其收下」
外媒消息称,法拉第未来执行董事长苏珊斯文森 (Susan Swenson)已经官宣正式辞职。而辞职的原因是FF官方已经与公司大股东FF Top就融资和董事会重组,最后,根据董事会重组的结果来...
日期:10-10
小冰发布超级自然语音技术 并披露A轮融资完成(小冰人工智能框架)
        7月12日,小冰公司发布全新的超级自然语音技术。该技术首次将人工智能语音自然度提升到与真实人类声音几乎无法分辨的程度,并支持通用全域场景。同时,小冰公司...
日期:06-09
杨元庆与黄仁勋公布重大计划:推出混合人工智能解决方案_杨元庆个人经历
通信世界网消息(CWW)10月24日,联想集团在举行的Tech World上公布了其迄今为止最全面的人工智能产品技术,以及“AI for All”的愿景。今年的活动是联想举办的第9届活动,重点关注联...
日期:10-26
AITO问界新M7的交付时刻: 赛力斯汽车亮出智能制造“杀手锏”_赛力斯问界m5
声明:本文来自于微信公众号 智能相对论(ID:aixdlun),作者:沈浪,授权转载发布。AITO问界新M7的销量爆了,口碑也紧接着“爆”了。AITO问界新M7系列上市以来50天,累计大定突破8万辆。...
日期:11-05
雷克萨斯全系大降价_丰田“加价神车”半年销量暴跌30%!雷克萨斯ES又全面涨价
作为丰田旗下的豪华汽车品牌,雷克萨斯一直的销量都很不错,特别是雷克萨斯ES,可以说是占据了雷克萨斯的半壁江山。即便是被网友疯狂吐槽“同级别动力最弱”,但也丝毫不影响该车的...
日期:08-16