您的位置:首页 > 互联网

多数评测指标超越,GPT4、Claude3、Gemini 1.5 零一万物发布千亿参数模型Yi-Large

发布时间:2024-05-13 19:28:06  来源:互联网     背景:

【】5月13日消息,继上周推出2C 产品一站式 AI 工作站“万知”后,今天,在零一万物成立一周年之际,零一万物 CEO 李开复博士携带千亿参数 Yi-Large 闭源模型正式亮相,除此之外,零一万物将早先发布的 Yi-34B、Yi-9B/6B 中小尺寸开源模型版本升级为 Yi-1.5 系列。

李开复表示,“万知”正是零一万物基于闭源模型 Yi-Large 所做出的 “模应一体” 2C 生产力应用。(万知更多内容,可关注此前报道:实测AI特助万知)

李开复介绍:“目前零一万物以优异的闭源模型能力,正在积极探索与世界 500 强企业的大型战略合作。”

ios14黄色素材

同时,零一万物赋能 2B 生态的 “API 开放平台” 今日全球上线。首批面向国内市场一次性发布了包含 Yi-Large、Yi-Large-Turbo、Yi-Medium、Yi-Medium-200K、Yi-Vision、Yi-Spark 等多款模型 API 接口。

此外,李开复还透露,零一万物已启动下一代 Yi-XLarge MoE 模型训练,将冲击 GPT-5 的性能与创新性。

Yi-Large 中文能力位列国产大模型之首

零一万物正式发布千亿参数规模的 Yi-Large,在第三方权威评测中,零一万物 Yi 模型在全球头部大模型的中英文双语 PK 上表现出色。

最新出炉的斯坦福评测机构 AlpacaEval 2.0 经官方认证的模型排行榜上,Yi-Large 模型的英语能力主要指标 LC Win Rate(控制回复的长度) 排到了世界第二,仅次于 GPT-4 Turbo,Win Rate 更排到了世界第一,此前国内模型中仅有 Yi 和 Qwen 曾经登上此榜单的前 20。

斯坦福 AlpacaEval 2.0 Verified 认证模型类别,英语能力评测(2024年5月12日)

在中文能力方面,SuperCLUE 更新的四月基准表现中,Yi-Large 也位列国产大模型之首,Yi-Large 的综合中英双语能力皆展现了卓越的性能,可谓正式晋升全球大模型的“极品”。

在更全面的大模型综合能力评测中,Yi-Large 多数指标超越 GPT4、Claude3、Google Gemini 1.5 等同级模型,达到首位。在通用能力、代码生成、数学推理、指令遵循方面都取得了优于全球领跑者的成绩,稳稳跻身世界范围内的第一梯队。

随着各家大模型能力进入到力求对标GPT4的新阶段,大模型评测的重点也开始由简单的通用能力转向数学、代码等复杂推理能力。在针对代码生成能力的 HumanEval、针对数学推理能力的 GSM-8K和 MATH、以及针对领域专家能力的GPQA等评测集上,Yi-Large也取得了具有绝对优势的成绩。

国际中英文评测数据集(2024年5月12日)

值得注意的是,上述评测均是在零样本(0-shot)或少样本(4-shot/5-shot/8-shot)的前提下进行。在零样本或少样本的情况下,模型必须依赖于其在大量数据上训练时获得的知识和推理能力,而不是简单地记忆训练数据。这最大程度上避免了刷分的可能性,能更加客观真实地考验模型的深层次理解和推理能力。

此外,从行业落地的角度来看,理解人类指令、对齐人类偏好已经成为大模型不可或缺的能力,指令遵循(Instruction Following)相关评测也越发受到全球大模型企业重视。斯坦福开源评测项目 AlpacaEval 和伯克利 LM-SYS 推出的 MT-bench 是两组英文指令遵循评测集,AlignBench 则是由清华大学的团队推出的中文对齐评测基准。在中外权威指令遵循评测集中,Yi-Large 的表现均优于国际前五大模型。

发布会上,李开复还宣布,零一万物已启动下一代 Yi-XLarge MoE 模型训练,将冲击 GPT-5 的性能与创新性。从 MMLU、GPQA、HumanEval、MATH 等权威评测集中,仍在初期训练中的 Yi-XLarge MoE 已经与 Claude-3-Opus、GPT4-0409 等国际厂商的最新旗舰模型互有胜负,训练完成后的性能令人期待。

Yi-XLarge 初期训练中评测(2024年5月12日)

Yi-1.5 开源全面升级

同时,零一万物Yi系列开源模型也迎来全面升级,Yi-1.5 分为 34B、9B、6B 三个版本,且提供了 Yi-1.5-Chat 微调模型可供开发者选择。从评测数据来看,Yi-1.5 系列延续了 Yi 系列开源模型的出色表现,数学逻辑、代码能力全面增强的同时,语言能力方面也保持了原先的高水准。开源地址:Hugginf Face https://huggingface.co/01-ai 及魔搭社区 https://www.modelscope.cn/organization/01ai。

经过微调后的 Yi-1.5-6B/9B/34B-Chat 在数学推理、代码能力、指令遵循等方面更上一层楼。Yi-1.5-6B/9B-Chat 在 GSM-8K 和 MATH 等数学能力评测集、HumanEval 和 MBPP 等代码能力评测集上的表现远同参数量级模型,也优于近期发布的 Llama-3-8B-Instruct;在 MT-Bench、AlignBench、AlpacaEval 上的得分在同参数量级模型中也处于领先位置。

Yi-1.5-34B-Chat 在数学能力同样保持着大幅领先,代码能力与超大参数量级的 Mixtral-8x22B-Instruct-v0.1 持平,指令遵循方面更是在 MT-Bench、Alignbench、ArenaHard、AlpacaEval2.0 等多个权威评测集上完全超越了 Mixtral-8x22B-Instruct-v0.1。

去年零一万物选择以开源首发 Yi 系列模型,其优异的性能受到国际开发者的高度认可。Yi 开源版本2023年11月上线首月,便占据开源社区近5成热门模型排行,发布一个月后 Yi-34B 被 Nvidia 大模型 Playground 收录,成为国内唯一获选模型,也建立了 Yi 模型面向国际的科技品牌信任度。

以开源模型构建生态,以闭源模型展开 AI-First 探索,开源闭源双轨模型策略使得零一万物构建起了生态体系。开源模型服务于全球的科研院校、学生、开发者、创业者人群,推动百花齐放的应用滋长;API 开放平台提供企业商用,协助企业实践 AI 2.0 的智能化转型。同时,零一万物以优异的闭源模型能力,正在积极探索与世界 500 强企业的大型战略合作。

Yi 大模型 API 开放平台全球首发 

全球开发者们对开源模型的品牌认可,成为零一万物 API 服务的强有力支撑。今天,零一万物宣布面向国内市场一次性发布了包含 Yi-Large、Yi-Large-Turbo、Yi-Medium、Yi-Medium-200K、Yi-Vision、Yi-Spark 等多款模型 API 接口,保证客户能够在不同场景下都能找到最佳性能、最具性价比的方案,Yi API Platform 英文站同步对全球开发者开放试用申请。

其中,千亿参数规模的 Yi-Large API 具备超强文本生成及推理性能,适用于复杂推理、预测,深度内容创作等场景;Yi-Large-Turbo API 则根据性能和推理速度、成本,进行了平衡性高精度调优,适用于全场景、高品质的推理及文本生成等场景。

Yi-Medium API 优势在于指令遵循能力,适用于常规场景下的聊天、对话、翻译等场景;如果需要超长内容文档相关应用,也可以选用 Yi-Medium-200K API,一次性解读20万字不在话下;Yi-Vision API 具备高性能图片理解、分析能力,可服务基于图片的聊天、分析等场景;Yi-Spark API 则聚焦轻量化极速响应,适用于轻量化数学分析、代码生成、文本聊天等场景。

中国云联盟华云数字

李开复强调,在中国大模型进入第二年之际,国内大模型赛道的竞跑从狂奔到长跑,终局发展将取决于各个选手如何有效达到 “TC-PMF”(Product-Market-Technology-Cost Fit,技术成本 X 产品市场契合度)。大模型从训练到服务都很昂贵,算力紧缺是赛道的集体挑战,行业应当共同避免陷入不理性的 ofo 式流血烧钱打法,让大模型能够用健康良性的 ROI 蓄能长跑,奔赴属于中国的 AI 2.0 变革。

 

 


返回网站首页

本文评论
盲视技术已在猴子身上见效!马斯克脑机接口公司新进展_马斯克脑控机器人
近日,埃隆・马斯克揭开了 Neuralink 下一代产品的神秘面纱,这款产品名为“Blindsight”,寓意着即使视觉受损,也能重新获得感知世界的能力。这款设备的核心功能,便是致力于恢复或...
日期:03-22
百度申请多个灵境相关商标怎么申请「百度申请多个灵境相关商标」
8月22日 消息:天眼查App显示,近日,百度在线网络技术(北京)有限公司申请注册多个“灵境造极”“灵境奇点”“灵境矩阵”“灵境回声”商标,国际分类为网站服务、科学仪器,当前商标状...
日期:08-22
特斯拉“降速” 逼得马斯克亮出了底牌_特斯拉一降再降
出品|网易科技《态度》栏目 作者|普子胥 编辑|丁广胜 暧昧的、兴奋的、担忧的、保守的、但就是不说新车具体量产时间的,都是同一个马斯克。面对2023年公司营收和毛利增长放缓,1...
日期:01-26
iPhone 15 Pro Max DXO自拍得分出炉:149分 全球第一
快科技10月12日消息,继后摄、屏幕得分后,评测机构DXOMARK日前正式公布iPhone 15 Pro Max前摄评测分数,经测试,该机以总分149分登顶DXOMARK全球前摄排行榜第1,成为DXOMARK自拍之王...
日期:10-12
网易称雀巢不该推卸责任 雀巢“二手制冰机”事件持续蔓延_雀巢咖啡收购报价
11月15日 消息:近日,网易此前向国家市场监管总局举报雀巢及其代理商提供的二手制冰机存在安全隐患,引发关注。15日,这起事件出现新进展。网易再次发声强调,雀巢作为一级代理商监...
日期:11-15
星途大型suv「车长超5米 定位中大型!星途首款MPV设计图曝光」
快科技4月8日消息,据媒体报道,日前星途首款MPV的设计图在网上曝光。从设计图中可以看出,新车的外观再次采用了颠覆性的设计,与传统的MPV造型形成了明显对比。前脸部分,新车的车头...
日期:04-09
iqoo neo9pro新机发布iQOO!Neo9S Pro官宣_首批搭载天玑9300+ 又一款直屏旗舰
来源:中关村在线随着天玑9300+的发布,又有一批新机要和大家见面了。除了首款搭载这颗芯片的vivo X100S外,今天iQOO也官宣将在本月发布iQOO Neo9S Pro。这款手机同样采用旗舰平...
日期:05-07
漫展上有人cos吴京 相似度让人难以置信_cosplay吴京
CosPlay,一般都会选择动漫、游戏里的角色,不过在上海BW漫展上,出现了一位令人震撼的cosplayer,他cos的居然是知名演员吴京。ios16949龙芯开源吗从图片来看,这位年轻的coser完美还...
日期:07-25
鸿蒙HarmonyOS 3首批正式版定档, 报名升级注意这些内容「鸿蒙HarmonyOS 2」
华为宣布,鸿蒙 HarmonyOS 3 正式版首批将于 10 月中下旬推送,官方公布了升级预告。华为 P50、Mate40 等此前通过测试的机型将首批尝鲜正式版。此外,华为 MatePad Pro 10.8 英寸...
日期:10-24
郭明錤:AMD 的 MI300 系列和英伟达 H100 下一代 AI 加速器将采用 Chiplet 设计
6月20日消息:据著名的苹果分析师郭明錤日前表示,苹果正专注于增强 iPhone 与其 Vision Pro 平台之间的整合。郭明錤指出,升级硬件规格是构建围绕 Vision Pro 的竞争生态系统的...
日期:06-20
解决烦人网站通知,微软 Edge 浏览器推出自适应通知功能_edge浏览器通知怎么关
  2 月 19 日消息 微软基于 Chromium 的 Edge 浏览器又获得了另一个有趣的功能——自适应通知。   与 Chrome 和 Firefox 一样,微软 Edge 也允许网站通过 Windows 行动...
日期:07-16
三星s24ultra什么样Ultra或将提供蓝色、绿色和橙色三种线上独享配色 三星S24
来源:中关村在线据知名爆料人士透露,三星即将推出的 Galaxy S24 Ultra 系列手机将会提供三种线上专属配色:蓝色、绿色和橙色。近年来,三星一直在其官方商城中推出限定配色的 Gal...
日期:12-19
《赛博朋克2077》销量破2000万份 首批适配NVIDIA DLSS 3_赛博朋克2077处理器要求高吗
虽然《赛博朋克2077》在最初上市之后遭到吐槽,尤其是与前期宣传不符,以及优化拉胯等问题,十分影响玩家体验。但官方一直在努力补救,挽回丢掉的口碑,目前来看做的还算不错。今天CD...
日期:10-02
极星手机 Polestar Phone 工信部证件照出炉,基于魅族21 Pro设计
工信部现已公布极星手机(型号M481S)入网证件照,该机型为魅族 21 Pro的改款产品,由珠海市魅族科技有限公司生产。该机型与魅族 21 Pro在申请3C认证时一同申请,因此可以视作同一款...
日期:03-03
有人靠卖惨短视频赚翻,而你还被蒙在鼓里
声明:本文来自于微信公众号 雷科技(ID:leitech),作者:雷科技,授权转载发布。卖惨博同情,古而有之,只是随着时代的进步和发展,“卖惨”的方式也在不停变化。从沿街乞讨到通过“讲故...
日期:01-15
一加12g「一加12搭载新一代超光影影像系统 李杰:超越友商Pro」
快科技11月9日消息,一加科技李杰通过微博预告,一加12将是一加首款完整搭载新一代超光影影像系统的旗舰,今天下午2:30,一加将在影像沟通会上揭开一加12超光影影像系统的更多细节...
日期:11-09
据报道,苹果因需求低迷而削减 Vision Pro 产量_导致苹果需求增加的是
划重点:⭐️ 苹果因预期之外的低需求削减 Vision Pro 生产。⭐️ 预计2024年销量仅为40万至45万台,远低于市场预期。⭐️ 调整头戴设备路线图,可能推迟低成本混合现实头盔的推出。特...
日期:04-24
240W秒充+24GB内存,真我GT5售价3799元
8月28日消息,真我今天正式推出五周年新品真我GT5。真我GT5搭载第二代骁龙8、24GB+1TB满级内存、240W满级秒充,240W直屏旗舰,售价3799元。真我GT5联合比亚迪电子首发奇迹玻璃。...
日期:08-28
明天国内油价下降多少「明晚国内油价预计下调:92号汽油加满一箱将少花2.5元」
10月23日消息,明天24时,新一轮成品油调价窗口将再次开启,预计将出现下调或搁浅的情况。截至10月20日收盘,国内第9个工作日参考原油变化率为-1.40%,对应汽柴油下调幅度均为60元/吨...
日期:10-23
小米通报汽车设计文件泄密处理结果 涉事合作方被罚100万元
2月2日 消息:据新浪科技报道,今年1月,有汽车博主发布了关于小米汽车首款车型小米MS11车型的设计图片,引发网络关注。小米集团公关部总经理王化随即回应称,泄密的文件是早期的招...
日期:02-02