「科技点亮生活智能改变世界」

元象实业「元象XVERSE-65B：国内最大开源模型来了，高性能无条件免费商用」

发布时间：2023-11-06 23:02:42 来源：互联网背景：

声明:本文来自于微信公众号机器之心（ID:almosthuman2014），作者:机器之心，授权转载发布。

国内此前开源了多个70到130亿参数大模型，落地成果涌现，开源生态系统初步建立。随着智能体等任务复杂性与数据量的提升，业界与社区对更大模型的需求愈发迫切。

研究表明，参数量越高，高质量训练数据越多，大模型性能才能不断提升。而业界普遍共识是达到500到600亿参数门槛，大模型才能智能涌现，在多任务中展现强大性能。但训练此量级模型成本高昂，技术要求较高，目前主要为闭源付费提供。

在国外开源生态中，Llama2-70B 和 Falcon-180B 等标杆模型为有条件开源，设置了月活跃用户数或收入等商用上限，并因缺乏训练数据在中文能力上有明显短板。此外，美国新近颁布的 AI 芯片禁令，或将进一步限制中国大模型产业发展的速度。业界迫切呼吁一个高性能国产大模型，填补生态空白，为中文应用提供更强大的理解、推理和长文生成能力。

在此背景下，元象 XVERSE 公司宣布开源650亿参数高性能通用大模型 XVERSE-65B，并且无条件免费商用，业界尚属首次。此外，13B 模型全面升级，提高小模型能力上限。这将让海量中小企业、研究者和 AI 开发者更早一步实现大模型自由，根据其算力、资源限制和具体任务需求，自由使用、修改或蒸馏元象大模型，推动研究与应用的突破创新。

象元尺寸

模型地址:https://huggingface.co/xverse/XVERSE-65B

元象 XVERSE 创始人姚星表示:面对研发时间紧、算力持续短缺等挑战，团队依靠丰富经验，三个月内研发出多款高性能7B、13B 模型，并最早为社区献上一个大有可为的65B 模型，为研究、商业及生态创造三重价值。

具体而言，65B 模型能够有以下积极影响:

研发上，65B 将为新技术、新工具、性能优化到模型安全提供大杠杆，让社区快速累积经验，也有助于推动国家科技自主可控的长远目标。
商业上，海量中小企业能以零成本用上大工具，可突破局限，推动应用显著创新。元象也能深入了解用例、安全模型部署和潜在机会。
在开发者生态上，社区能充分发挥组织协同优势，推动研发应用的寒武纪大爆发。

开源可免费商用大模型图谱

全链条自研，多项技术创新

XVERSE-65B 底座模型在2.6万亿 Tokens 的高质量数据上从头训练，上下文窗口扩展至16K，支持中、英、俄、法等40多种语言。

元象坚持高性能定位，显著提升了65B 三方面能力:

理解、生成、推理和记忆等基础能力，到模型的多样性、创造性和精度表现，从优异到强大;
扩展了工具调用、代码解释、反思修正等能力，为构建智能体奠定技术基础，提高模型实用性;
显著缓解7B、13B 中常见且可能很严重的幻觉问题，减少大模型幻觉，提高准确性和专业度。

元象大模型系列均为全链条自研，涵盖多项关键技术与研发创新:

1. 复杂分布式系统设计:借鉴团队研发腾讯围棋 AI绝艺、王者荣耀 AI绝悟等大系统上的丰富经验，自研高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台与框架协同等关键技术，打造高效稳定的训练系统，千卡集群峰值算力利用率达58.5%，位居业界前列。

2. 全面提升性能:65B 训练中采用 FlashAttention2加速计算，3D 并行基础上采用虚拟流水线（virtual pipeline）技术，降低较长流水线产生过高气泡率，提升计算推理效率;上下文窗口长度从8K 逐步提升到16K，使其不仅能出色完成复杂任务，包括长文理解、长文生成和超长对话，还拓展了工具调用、代码解释及反思修正能力，能更好构建智能体(AI Agent)。

3. 极致提升训练稳定性:因计算量庞大，通信拥塞、芯片过热或计算节点故障成为65B 训练常态，初期出现过一周最高八次故障的情况。通过集群基础设施运营、资源调度、训练框架和调度平台协同等持续优化，元象打造出高稳定、低中断、强容错的训练系统，将每周有效训练率提升至98.6%。

推特拖欠供应商款项被索赔260万元是真的吗

此外，在接近1.6万亿 Tokens 的模型训练中期，损失函数产生了 NaN 值，可能导致训练中断。通常情况下，业界一般会在分析后删除与之相关的数据区间。而团队根据经验判定这是模型自然演化，选择不删除数据，直接跳过相关参数更新，最终 NaN 值问题解决。后期对参数值、激活值、梯度值等中间状态的进一步分析表明，该问题可能与模型最后一层 transformer block 激活值的最大值变化有关，并会随最大值的逐渐降低而自行解决。

解决 NaN 值问题研发经验

元象科技

全面测评65B 性能媲美 GPT3.5

为确保业界能对元象大模型性能有全面、客观、长期认知，研究人员参考了一系列权威学术测评，制定了涵盖问答、理解、知识、推理、数学、代码等六个维度的11项主流权威测评标准，将持续使用并迭代。

XVERSE-65B 在国内尚无同量级模型可对比，在与国外标杆对比测评中，部分指标超越、综合性能媲美 GPT3.5;全面超越开源标杆 Llama2-70B 和 Falcon-180B ;与 GPT4仍有差距。

XVERSE-65B 评测

全面升级的 XVERSE-13B-2，比同尺寸模型增加大量高质量数据，训练数据高达3.2万亿，极大提升了小模型的能力上限。它文理兼修，保持了文科优势，问答提升18%，理科长足进步，代码提升149%、数学提升198%，在测评中全面超越了 Llama2、Baichuan2等国内外开源标杆。

升级版 XVERSE-13B-2测评

开启大模型应用新时代

元象大模型可在 Github、Hugging Face、魔搭 ModelScope 等多平台搜索XVERSE下载，简单登记后即可无条件免费商用，能满足中小企业、科研机构和个人开发者绝大部分的应用与迭代需求。

元象同时提供模型训练、推理、部署、精调等全方位技术服务，赋能文娱、金融、医疗等各行各业，帮助在智能客服、创意写作、精准推荐等多场景打造行业领先的用户体验。2023年10月，腾讯音乐率先宣布与元象大模型建立战略合作，共同推出 lyraXVERSE 加速大模型、全面升级其音乐助手AI 小琴，未来还将持续探索 AI 与3D 前沿技术，引领音乐娱乐创新方向。

姚星表示:真实世界的感知智能（3D），与真实世界的认知智能(AI)，是探索通用人工智能(AGI)的必由之路，也是元象持续探索前沿科技的动力。XVERSE 开源系列致力于推动大模型国产可替代与持续技术创新，为实体经济、数字经济发展注入强劲动力。我们期待与企业和开发者携手，共同开启大模型应用新时代!

关于元象

元象 XVERSE 于2021年初在深圳成立，是国内领先的 AI 与3D 技术服务公司，致力于打造 AI 驱动的3D 内容生产与消费一站式平台，愿景为定义你的世界。

官方网站:www.XVERSE.cn

元象累计融资金额超过2亿美元。元象创始人姚星是前腾讯副总裁和腾讯 AI Lab 创始人、国家科技部新一代人工智能战略咨询委员会成员。

在3D 与 AI 技术领域，元象拥有深厚积累与完整布局。在3D 领域，已自主研发出行业引领性的端云协同3D 互动技术，开创零门槛（轻）、一站式(快)、高品质(美)全新3D 体验;在 AI 领域，开源中国最大参数可商用大模型 XVERSE-65B，旨在推动大模型国产可替代与行业应用发展。

安全平台手机移动版app_移动应用程序安全委员会特邀更美APP加入，全力保障用户隐私安全

　　更美APP创立于2013年,在国内消费医疗领域具有非常高的知名度。更美APP通过平台向用户提供微整形、眼科、整形、齿科等消费医疗服务,帮助更多爱美人士完成变美心愿。　...

元象实业「元象XVERSE-65B：国内最大开源模型来了，高性能无条件免费商用」

推特拖欠供应商款项 被索赔260万元是真的吗

推特拖欠供应商款项被索赔260万元是真的吗