您的位置:首页 > 互联网

零一万物Yi-34B-Chat 跻身全球权威榜单前列

发布时间:2023-12-11 16:41:35  来源:互联网     背景:

继11月初零一万物发布性能优异的 Yi-34B 基座模型后,Yi-34B-Chat 微调模型在11月24日开源上线 ,再度获得全球开发者广泛关注,短时间在全球多个英文、中文大模型权威榜单名列前茅。

其中,斯坦福大学研发的大语言模型评测 AlpacaEval Leaderboard 备受瞩目。在实打实的“秀肌肉”比拼中,Yi-34B-Chat以94.08%的胜率,超越LLaMA2 Chat 70B、Claude 2、ChatGPT,在 Alpaca 经认证的模型类别中,成为世界范围内仅次于GPT-4英语能力的大语言模型,并且是经由Alpaca官方认证为数不多的开源模型。

AlpacaEval Leaderboard排行榜(发布于2023年12月7日)

apple watch series 741mm和45mm

同一周,在加州大学伯克利分校主导的LMSYS ORG排行榜中,Yi-34B-Chat也以1102的Elo评分,晋升最新开源SOTA开源模型之列,性能表现追平GPT-3.5。

在五花八门的大模型评测中,伯克利LMSYS ORG排行榜采用了一个最为接近用户体感的 “聊天机器人竞技场” 特殊测评模式,让众多大语言模型在评测平台随机进行一对一 battle,通过众筹真实用户来进行线上实时盲测和匿名投票,11月份经25000的真实用户投票总数计算了20个大模型的总得分。Elo评分越高,说明模型在真实用户体验上的表现越出色,可说是众多大模型评测集中最能展现 “Moment of Truth 真实关键一刻” 的用户导向体验对决。在开源模型中,Yi-34B-Chat成为当之无愧的“最强王者” 之一(英语能力),LMSYS ORG 在12月8日官宣11月份总排行时评价:“Yi-34B-Chat 和 Tulu-2-DPO-70B 在开源界的进击表现已经追平 GPT-3.5”。

LMSYS ORG榜单(发布于2023年12月8日)

中文能力方面,Yi-34B-Chat 微调模型同样不遑多让。SuperCLUE是一项针对中文能力的排行榜,从基础能力、专业能力和中文特性能力三个不同的维度,评估模型的能力。根据11月底发布的《SuperCLUE中文大模型基准评测报告2023》,11月下旬首度发布的 Yi-34B Chat,迅速晋升到和诸多国产优秀大模型齐平的 “卓越领导者” 象限,在多项基准评测中的 “SuperCLUE 大模型对战胜率” 这项关键指标上,Yi-34B-Chat 取得31.82%的胜率,仅次于GPT4-Turbo。

中文SuperCLUE排行榜(发布于2023年11月28日)

对广大开发社区来说特别值得一提的是,Yi-34B-Chat 微调模型还为开发者提供了4bit/8bit 量化版模型。Yi-34B-Chat 4bit 量化版模型可以直接在消费级显卡(如RTX3090)上使用,训练成本友好。

Yi-34B-Chat 模型实力在不同的对话场景中实力如何?来看几个更直观的问题演示:

【知识与生成】:Transformer 模型结构能不能走向 AGI ?

【创意文案】:给我生成一个小红书文案,给大家安利一只豆沙色的口红。

【中文理解】:小王给领导送了一份礼物后。领导说:“小王,你这是什么意思?”小王:“一点心意,意思意思。”领导:“你这就不够意思了。”小王:“小意思,小意思。”领导:“小王,你这人真有意思。”小王:“也没什么别的意思。”领导:“那我多不好意思。”小王:“是我不好意思。”这个意思到底是什么意思?

据零一万物介绍,除了 Yi 系列强基座的贡献以外,Yi-34B-Chat 模型的效果还得益于其人工智能对齐(AI Alignment)团队采用了一系列创新对齐策略。通过精心设计的指令微调流程,不仅强化了模型在理解和适应人类需求方面的能力,还使得模型与人类价值观对齐,包括帮助性(Helpful),可靠性(Honest),无害性(Harmless)等。

iphone 13四款机型续航对比

在强基座设定下,该团队采用了一种轻量化指令微调方案,该方案涵盖了单项能力提升和多项能力融合两个阶段。

其中,单项能力包括通用指令跟随、创意内容生成、数学、推理、编程、泛COT、对话交互等。通过大量的消融实验,针对模型单能力构建和多能力融合总结了独家认知经验。

在数据的量和质方面,一方面,团队在强基座模型上,实现仅需要少量数据(几条到几百条),就能激发模型特定单项能力;另一方面,数据质量比数量重要,少量高质量数据比大量低质量数据更好。通过关注超出模型能力的“低质量”数据,减少了模型“幻觉”。

在指令多样性与难度方面,团队通过在各能力项下构建任务体系,实现了训练数据中的指令均衡分布,大幅提升了模型泛化性。通过复合指令构造和指令难度进化,不仅提升了模型效果,也显著降低了对数据量的需求。

在风格一致性方面,团队发现训练数据的风格会影响模型收敛速度和能力上限的逼近程度,因此统一了回复风格,比如重点设计了CoT的回复风格,实现在轻量SFT情况下,避免了风格不一致加剧模型的“记忆”现象。

在多能力融合阶段,团队采用网格搜索的方法来决定数据配比和超参数的设置,通过基准测试和自建评测集的结果来指导搜索过程,成功实现模型的多能力融合。

生态与开发者始终是大语言模型的核心。零一万物宣布,邀请全球开发者共同测试使用 Yi-34B-Chat 模型能力,一起搭建 Yi 开源模型的应用生态系!

模型地址

https://huggingface.co/01-ai/

https://www.modelscope.cn/organization/01ai


三星watch4对比iwatch6

本文系网易科技《数字星球》原创报道,更多数字经济资讯和深度解析,关注我们。


返回网站首页

本文评论
钉钉6.0发布:3大升级 首次推出角色工作台(钉钉开发者选项)
  2015年1月16日,钉钉1.0正式上线。至2020年12月31日,钉钉已经服务4亿用户、1700万企业组织。   1月14日,钉钉6.0版本正式发布,向“企业协同办公和应用开发平台”继续进化...
日期:09-15
今年推出直降专场-不用费劲凑单领券 淘宝天猫历史最大投入618
5月10日消息,一年一度的618电商大促马上就要开始了,按照以往的惯例,在5月31日晚就会开启第一波促销。今天,淘宝天猫召开了一场618启动会,淘宝天猫618总负责人暮珊给商家们划出3大...
日期:09-29
苏宁消金更名为南银法巴消金,料将很快启动增资扩股
  记者 陈佩珍    8月30日,澎湃新闻从多个信源独家获悉,苏宁消费金融有限公司(下称苏宁消金)已获批更名为南银法巴消费金融有限公司(下称南银法巴消金)。南银法巴消金新一轮...
日期:08-31
中国电信:小米手机Wi-Fi性能 全价位第一「小米移动 电信」
本周中国电信官方发布了《中国电信终端洞察报告(2022年第二期)》。电信对5G手机、手机AI芯片、Wi-Fi 6路由器等产品进行了全方位的详细评测。5G手机中的Wi-Fi性能测试小米包揽...
日期:01-16
法拉第未来FF 91下周交付 10月继续每周交付_法拉第未来ff91亮相
法拉第未来公司于9月29日在投资者网络直播沟通会上公布了FF 91(图片) 2.0 Futurist Alliance的交付安排。公司已在今年第三季度成功交付了三辆FF 91 2.0 Futurist Alliance车...
日期:09-30
京东员工租房福利「京东开启员工福利新篇章:31亿元拿地或建设员工福利房」
2月9日 消息:据证券时报报道2月8日,北京2022年的第五次集中供地圆满结束,总共有6块地,其中3块触顶、3块底价。6块地共收取了132.09亿元,总面积21.47万平方米,规划建筑面积53.18万...
日期:02-09
苹果皮好用吗_苹果手机苹果皮到底好不好用
随着苹果的普及,如何处理苹果皮的问题也受到了广泛关注。苹果皮一般是指苹果外部的那层纤维状薄皮,它呈现出红、绿、黄三种颜色,是富含营养的部分之一。那么,苹果皮好用吗?下面,我...
日期:05-29
抖音电商品牌服务商2023年续牌规则:近30天GMV须不低于100万「抖音一季度电商gmv」
11月25日 消息:今日 ,抖音电商发布了关于新增《抖音电商品牌服务商2023年续牌规则》的意见征集通知,意见征集期2022年11月25日—2022年12月2日。据悉,规则适用于2022年12月25日...
日期:11-26
存储资源整合!满足业务数据存储需求一套EDS就够了
  时光回溯到十几年前,如果想听歌,你需要MP3;如果你想看电影,你需要MP4;如果你想打游戏,你需要一台游戏设备;如果你要打电话,你需要一台手机……而现如今智能手机飞速发展,一台...
日期:12-20
美媒:中国汽车零部件制造商海外建厂加速“走出去”「中国汽车零部件出口」
4月11日消息,出于多重因素考量,中国汽车零部件制造商正面临外国客户越来越大的压力,要求他们在海外建厂。airpodspro2代提示不是你的怎么办美国特斯拉model y再涨价500美元据外...
日期:04-11
中兴通讯副总裁陈志萍:推动工业场景数智升级,实现数字技术与行业需求的“双向奔赴”
通信世界网消息(CWW)11月9日,以“重回增长轨道:路径与机遇”为主题的2023年《财富》中国500强峰会在上海举行,知名企业代表,专家学者近百人齐聚一堂,围绕宏观经济和政策预判、新消...
日期:11-10
颠倒黑白岂无代价?继腾讯联想等之后,科大讯飞宣战黑公关
  面对黑公关的恶意诽谤、肆意抹黑,国内语音识别一哥科大讯飞终于不再沉默。3月14日,一则来自“中央人民广播电台”的消息表明,近日,科大讯飞以侵犯名誉权为由,将两家公关策划...
日期:05-07
游戏史上秀的3A大作之一 《巫师3》销量破4500万:好评如潮「巫师三发售量」
如果推荐一款好玩而且口碑又高的游戏,那么CDPR波兰蠢驴开发的《巫师3》准没错,7年来这款游戏好评如潮,现在的总销量也创造了一个新纪录4500万。CDPR公司CEO日前在一次会议上公...
日期:11-11
今年7月Windows XP市场份额已跌破50%
  北京时间8月2日消息,据国外媒体报道,互联网流量监测机构Net Applications的最新统计数据显示,今年7月份微软Windows XP操作系统的市场份额已跌破50%。这也是自Net Applica...
日期:07-22
比特币涨价概念股「追随股指 比特币价大跌3.4%下破20000美元大关」
加密货币反映了全球市场的情况,在杰罗姆·鲍威尔警告不要过早放松政策后,比特币跌破了过去两周交易的狭窄区间的底端:20000美元。数字资产基金经理Valkyrie Investments的研究...
日期:09-05
马斯克今天在推特说什么「马斯克将于10月6日和7日就推特收购案接受推特律师询问」
9月28日消息,据国外媒体报道,一份法庭文件显示,特斯拉CEO埃隆·马斯克将于当地时间10月6日和7日上午在特拉华州威尔明顿的波特·安德森和科罗恩(Potter AndersonCorroon)律师事务...
日期:09-29
超迷你芯片植入大脑,能用意念控制电脑_用芯片控制人脑
美国普渡大学的科学家们设计了一种比一角硬币还小的装置,它能感应并向一副耳罩式耳机传输数据,让人们用意念控制计算机和智能设备。与目前的脑芯片不同,这种植入物不需要连接电...
日期:10-01
华为充电桩概念股「华为计划部署超10万个充电桩 推动实现碳中和目标」
12月8日 消息:在2023世界新能源汽车大会上,华为数字能源总裁侯金龙发表了关于推动新能源汽车与充电基础设施协同发展的演讲。他强调了交通电动化是实现碳中和目标的关键,并表...
日期:12-08
中国农业科学院科研人员开发出首款茶树高密度 SNP 芯片_茶树转基因的技术研究
  12 月 21 日消息,近日,中国农业科学院茶叶研究所茶树遗传育种团队基于“龙井 43”基因组参考序列和茶树重测序数据,开发出一款 200K 茶树 SNP 芯片。相关研究成果在《植物...
日期:07-17
市道不好,连知乎编的段子都越来越小气了
声明:本文来自于微信公众号 互联网怪盗团(ID:TMTphantom),作者:裴培,授权转载发布。2022年底,经济活动全面放开之后不久,所有社交媒体平台都在热烈讨论一个话题:“疫情结束之后,房...
日期:06-25