您的位置:首页 > 互联网

直追GPT-4!李开复Yi-34B新成绩公布:94.08%的胜率超越LLaMA2等主流大模型_李开复otto2

发布时间:2023-12-12 00:08:28  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:允中 ,授权转载发布。

仅次于GPT-4,李开复零一万物Yi-34B-Chat最新成绩公布——

在Alpaca经认证的模型类别中,以94.08%的胜率,超越LLaMA2Chat70B、Claude2、ChatGPT!

不仅如此,在加州大学伯克利分校主导的LMSYS ORG排行榜中,Yi-34B-Chat也以1102的Elo评分,晋升最新开源SOTA开源模型之列,性能表现追平GPT-3.5。

在五花八门的大模型评测中,伯克利LMSYS ORG排行榜采用了一个最为接近用户体感的 “聊天机器人竞技场” 特殊测评模式,让众多大语言模型在评测平台随机进行一对一 battle,通过众筹真实用户来进行线上实时盲测和匿名投票,11月份经25000的真实用户投票总数计算了20个大模型的总得分。

Elo评分越高,说明模型在真实用户体验上的表现越出色,可说是众多大模型评测集中最能展现 “Moment of Truth 真实关键一刻” 的用户导向体验对决。

△LMSYS ORG榜单(发布于2023年12月8日)

中文能力方面,Yi-34B-Chat 微调模型同样不遑多让。SuperCLUE是一项针对中文能力的排行榜,从基础能力、专业能力和中文特性能力三个不同的维度,评估模型的能力。

根据11月底发布的《SuperCLUE中文大模型基准评测报告2023》,11月下旬首度发布的 Yi-34B Chat,迅速晋升到和诸多国产优秀大模型齐平的 “卓越领导者” 象限,在多项基准评测中的 “SuperCLUE 大模型对战胜率” 这项关键指标上,Yi-34B-Chat 取得31.82%的胜率,仅次于GPT4-Turbo。

△中文SuperCLUE排行榜(发布于2023年11月28日)

对话场景实测

Yi-34B-Chat 模型实力在不同的对话场景中实力如何?来看几个更直观的问题演示:

例如“喂”给Yi-34B-Chat如下问题:

Transformer 模型结构能不能走向 AGI ?

不难看出,Yi-34B-Chat的回答可以说是有理有据。

再来:

给我生成一个小红书文案,给大家安利一只豆沙色的口红。

回答可以说是非常符合现在小红书主流的带货风格了。

中文理解方面,我们再出一道题:

小王给领导送了一份礼物后。领导说:“小王,你这是什么意思?”小王:“一点心意,意思意思。”领导:“你这就不够意思了。”小王:“小意思,小意思。”领导:“小王,你这人真有意思。”小王:“也没什么别的意思。”领导:“那我多不好意思。”小王:“是我不好意思。”这个意思到底是什么意思?

可以看到,即便是在非常“绕”的中文理解方面,Yi-34B-Chat也是精准的拿捏住了。

据零一万物介绍,除了 Yi 系列强基座的贡献以外,Yi-34B-Chat 模型的效果还得益于其人工智能对齐(AI Alignment)团队采用了一系列创新对齐策略。通过精心设计的指令微调流程,不仅强化了模型在理解和适应人类需求方面的能力,还使得模型与人类价值观对齐,包括帮助性(Helpful),可靠性(Honest),无害性(Harmless)等。

在强基座设定下,该团队采用了一种轻量化指令微调方案,该方案涵盖了单项能力提升和多项能力融合两个阶段。

其中,单项能力包括通用指令跟随、创意内容生成、数学、推理、编程、泛COT、对话交互等。通过大量的消融实验,针对模型单能力构建和多能力融合总结了独家认知经验。

在数据的量和质方面,一方面,团队在强基座模型上,实现仅需要少量数据(几条到几百条),就能激发模型特定单项能力;另一方面,数据质量比数量重要,少量高质量数据比大量低质量数据更好。通过关注超出模型能力的“低质量”数据,减少了模型“幻觉”。

在指令多样性与难度方面,团队通过在各能力项下构建任务体系,实现了训练数据中的指令均衡分布,大幅提升了模型泛化性。通过复合指令构造和指令难度进化,不仅提升了模型效果,也显著降低了对数据量的需求。

在风格一致性方面,团队发现训练数据的风格会影响模型收敛速度和能力上限的逼近程度,因此统一了回复风格,比如重点设计了CoT的回复风格,实现在轻量SFT情况下,避免了风格不一致加剧模型的“记忆”现象。

在多能力融合阶段,团队采用网格搜索的方法来决定数据配比和超参数的设置,通过基准测试和自建评测集的结果来指导搜索过程,成功实现模型的多能力融合。

不仅如此,Yi模型开源首月,数据也很亮眼。

在Hugging Face社区下载量为16.8万,魔搭社区下载量1.2万。在GitHub 获得超过4900个Stars。

由于性能表现强劲,多家知名公司和机构推出了基于Yi模型基座的微调模型,比如猎豹旗下的猎户星空公司推出的OrionStar-Yi-34B-Chat模型,南方科技大学和粤港澳大湾区数字经济研究院(简称IDEA研究院)认知计算与自然语言研究中心(简称CCNL中心)联合发布的SUS-Chat-34B等,均性能表现优异。而AMD和Hugging Face合作的GPU加速大模型的实验中,也选择了Yi-6B作为范例项目。

知名技术写作者苏洋表示,在他观察的近期Hugging Face榜单中,前三十名有一半多都是 Yi 和其他用户微调的 Yi-34B 的变体模型,原本占据榜单头部的68B 和70B 模型的数量目前只留有几个,“从这点看 Yi 对于开源生态的帮助还是非常巨大的。”

用户真实反馈实录

Yi-34B开源发布后,开发者Eric Hartford就发现了模型存在的一个小问题。

他在邮件中写道:

感谢你们提供了一个优秀的模型。Yi模型使用了与LLaMA模型完全相同的架构,只是将两个张量改了名字。由于围绕LLaMA架构有很多投资和工具,保持张量名称的一致性是有价值的。”Eric建议,在Yi被广泛传播前,及时恢复张量名称。

零一万物意识到命名问题的疏忽对开发者造成的不便,跟Eric和其他开发者提出说明,表达诚挚的歉意,并很快便在各开源平台重新提交模型及代码,完成了开源社区的版本更新。

然而Eric自己也没有预想到,他的这个建议,在国内竟被曲解、误读,引发了舆论关于Yi模型“抄袭”LLaMA的质疑。

事实上,一个模型核心技术护城河是在架构之上,通过数据训练获得的参数和代码,在沿用了开源社区普遍使用的LLaMA 架构之上。

根据零一万物团队的说法,他们是从零开始,用高质量的数据集、自研训练科学和AI Infra打造了 Yi-34B 在内的系列模型。为了执行对比实验的需要,对部分推理参数进行了重新命名。原始出发点是为了充分测试模型,而非刻意隐瞒来源。

身处这场舆论风暴的中心,Eric也在X(twitter)上写道:

李开复最新视频

他们没有在任何事情上撒谎。所有的模型都是在相互借鉴架构。架构是学术研究的产物,已经发表在论文中,任何人都可以自由使用,这丝毫不减损Yi团队的成就。他们从零开始使用自己创建的数据集训练Yi,对开源领域的贡献是值得赞扬的。

紧接着,他又说,“使用Llama架构没有任何问题。训练才是关键。Yi给了我们目前可获得的最佳模型,没有任何可抱怨的。”

现在,Eric已经成为Yi-34B的忠实拥趸,会使用Yi-34b-200k数据集训练其他的模型产品,并感叹丝滑般的训练体验。

数字化创业者,开发者,技术写作者苏洋表示:

我自己本身是大模型产品的重度用户,除了用了很久的 Tabnine、Copilot 做代码辅助生成之外,也算是第一批开始氪金使用 Chat 的玩家,基本各家厂商模型出来都会申请内测,体验模型的实际能力。这里除去工作中接触和使用模型的机会外,作为独立开发者,玩了十几年的代码,我个人也非常好奇模型究竟能够发展到什么程度。

我了解到 Yi-34B 有几个渠道,当时的 Huggingface 榜单第一名、小圈子朋友的“点赞”和“吐槽”、各种群里刷屏的消息。

三星Galaxy Z Fold2 5G(SM-F9160)折叠屏

我是开发者,同时也是终端用户,所以非常好奇,这个模型到底行不行?或者说更想知道模型哪里是行的,哪里是不行的。尤其是榜单分数这么高,质疑声浪也这么高?与其雾里看花、众说纷纭,不如自己实际跑一跑。

于是,我尝试使用家里本地的机器,在纯 CPU 环境、CPU & GPU 混合环境下对模型进行测试,结果比想象中要好。

李开复omo

尤其是社区中的 finetune 后的版本,在对新闻、研究报告的摘要总结方面,对非结构化的信息中的实体识别和抽取上表现非常不错。早些时候,官方还未推出 Chat 版本时,来自社区的 Chat 版本在对话的过程中,通史类的问答表现也非常不错。当然,可能是由于零一在训练过程中,出于安全考虑,过滤太多语料的缘故,一些本土化的内容仍然不够深入。

而且,不光是我的个人体验,海外也有用户有相同体感,在“海外贴吧” Reddit 上有分享自己的感受,你们可以自己搜搜看。

我会时不时的浏览下 HF 的榜单,在最近榜单中的前三十名,有一半多都是 Yi 和其他用户微调的 Yi-34B 的变体模型,原本占据榜单头部的68B 和70B 模型的数量目前只留有几个,从这点看 Yi 对于开源生态的帮助还是非常巨大的。

34B 普通用户努努力还是能自己相对低成本跑起来的,68和70B 的模型想要本地运行,需要更多的资源。但其实目前分数其实相比较34B 拉不开太多,也就三四分平均分,但参数量差了一倍。换言之,企业想部署使用,所需要的成本也可以得到非常大的节约。

目前国产大模型在开源榜单上已经是第一梯队,但如果把竞争范围追加到闭源模型、尤其是海外的模型,仍有很大的距离要去追赶。目前的普遍体验是开源模型最多只有 GPT-3.5+ 的水平。

李开复 2020

我个人相信国产大模型是能够很快追赶至第一梯队的。

就如同很多底子很好,又勤奋刻苦的中国大学生,能够在使用正确方法的前提下,通过努力,不断的进入更好的学习环境,不断刷新自己成绩,取得耀眼的学术成就。现实中,哪怕是对华人苛刻的 “八大藤校”,是不是中国人越来越多了呢?

只要底子好,坚持使用开源的正确路线和方法,做好本地化适配和调优,就有希望。

参考链接:

[1]https://huggingface.co/01-ai/

[2]https://www.modelscope.cn/organization/01ai


返回网站首页

本文评论
马斯克 美国政府「马斯克曝光:美政府干预所有社交媒体,会向其下达明确指示」
  环球时报驻美国特约记者/李准  推特首席执行官马斯克27日发文称,“每家”美国社交媒体公司都在美国政府的主导下进行了严格审查。此外,美国政府有时还会向这些公司下达...
日期:12-29
小米上架10000mAh 22.5W Lite充电宝:超轻、首发79元「小米充电宝10000毫安高配版」
充电宝是我们日常外出经常会携带的数码单品,在现在共享充电宝不断涨价的现在,自己出门带个充电宝还是很有必要的。小米就推出了一款非常轻薄的充电宝10000mAh 22.5W Lite,白色...
日期:04-14
极品美女颜宁当选中国科学院院士!网友:没有烟草酱香院士,不错
在科学界,颜宁教授的名字可谓家喻户晓。这位生物学家不仅在学术领域取得了卓越成就,还以她的勇气和智慧,为我国生命科学领域树立了一座新的里程碑。日前,颜宁教授当选为中国科学...
日期:11-23
华为matepad2021年发布会「11月见!华为新品发布会首曝:全新MatePad、畅享60s来了」
快科技11月13日消息,临近年底,各大手机厂商今年最后一波新品也将陆续发布与消费者见面。日前,华为智选车首款轿车智界S7宣布将在11月28日正式发布,从目前已知信息来看,当天新品不...
日期:11-13
华为p50价格高「新款华为P50曝光 搭载778G卖六千」
中关村在线消息:据微博博主爆料称,华为将于本月底发布P50系列新机P50 Pocket New,据悉新机将会搭载骁龙778G(4G)处理器,相较于去年发布的P50 Pocket将会去掉副屏,而价格也有所优惠,...
日期:10-18
曝小米13今天官宣 12月1日发布_小米13上市时间
产业链有消息称,小米将会在今天官宣小米13系列手机,而发布时间基本定在12月1日和2日左右,目前已经有不少手机品牌,去争夺骁龙8 Gen2芯片的首发,在芯片发布会时,小米高管就曾现身,但...
日期:12-02
宝马卖保险,到底为了啥?_为什么宝马车险贵
  在保险行业“去中介化”的呼声中,近年来有上千家保险中介机构被注销。但在这种情况下,依然有新玩家入场。日前,“宝马也要卖保险”的消息一出,瞬间引起行业关注。其实此前,包...
日期:09-30
第一款不凸起的骁龙8 Gen3旗舰!红魔9 Pro把摄像头做平了_红魔手机骁龙888
快科技11月14日消息,据红魔官微消息,红魔9 Pro系列挑战器件堆叠的极限,把摄像头做到了不凸出,成为第一款不凸起的骁龙8 Gen3旗舰”。官方介绍,为了将镜头与机身背部做平,红魔对近...
日期:11-15
抖音电商:过去一年优质内容创作者数量增长484%_抖音作品浏览量2万
2月9日 消息:抖音电商“寻找同行者”举办优质内容分享专场,数据显示,截至去年10月,抖音电商优质内容创作者数量较年初增长484%;平台挖掘优质短视频超147万条,助力超26万名创作者...
日期:02-10
推特重启“蓝V”付费认证,苹果手机端多收3美元,未来还将推出“金V”“灰V”
  记者/李孟林; ;义乌小商品市场销售额  编辑/高涵;;  当地时间12月11日,推特宣布将于本周一重启Twitter Blue(“蓝V”)付费认证,通过网页端订阅的价格为8美元/月,而通过苹...
日期:12-12
十年远控品牌向日葵亮相海纳汇,助力物联网企业数字化
  2019年7月20日,海纳汇联盟年度全国巡展第六站在杭州成功举办。   海纳汇中国软件行业生态联盟是中国最具合作价值的软件行业生态联盟,是由千百家各行业软件厂商和渠道...
日期:06-04
在夜校,年轻人用五百元“重启人生”
声明:本文来自于微信公众号 刺猬公社(ID:ciweigongshe),作者:怡晴,授权转载发布。图源备注:图片由AI生成,图片授权服务商Midjourney“夜校”的概念,正在全国风靡。11月6日,央视新闻报道...
日期:11-12
电信3g手机不识别4g卡「电信3g手机」
随着科技的不断进步,手机也变得越来越智能化,而电信3G手机就是其中之一。电信3G手机是指采用电信3G网络的手机,具有更高的传输速度和更丰富的应用功能。首先,电信3G网络是指第三...
日期:05-31
腾讯start云游戏ios可以玩吗「苹果iOS用户也可玩腾讯START云游戏」
腾讯的START云游戏宣布正式上线网页版,让苹果iOS端用户也能体验云游戏。目前,玩家只需打开START官网,点击网页版即可一键启动。三星galaxy s2参数腾讯START云游戏平台最初面向...
日期:06-22
小学生受到校园欺凌怎么办「小小年纪“染上”网络欺凌怎么办?」
  来源:法治日报  □ 本报记者  韩丹东  □ 本报实习生 关楚瑜三星S7拆机  近日,一名来自广东的高一学生林芝(化名)向《法治日报》记者打来电话求助,称自己只是在网上...
日期:09-09
周鸿祎:元宇宙的未来是产业元宇宙「元宇宙架构」
8月30日消息,8月27日,360集团创始人、董事长周鸿祎在第三届上海创新创业青年50人论坛上发表主旨演讲,分享了对创新创业的思考。周鸿祎表示,产业数字化的过程中,企业级服务市场依...
日期:09-08
多地市拟出台信息化管理规定 叫停“人肉搜索”
  据中国之声《央广新闻》21时55分报道,浙江省十一届人大常委会第18次会议近日分组审议了《浙江省信息化促进条例(草案)》,有报道称,其中规定禁止进行“人肉搜索”。具体情...
日期:07-29
打造多云及一体化数据平台 云器科技宣布完成数亿元融资_多云容器平台
【】6月16日消息,多云、一体化数据平台公司——云器科技宣布已完成连续两轮总计数亿元人民币的融资,包括元璟资本投资的天使轮,元璟资本和启明创投联合领投、挑战者创投跟投的A...
日期:09-23
百度地图导航“登上”摩托车:是探索也是破局_百度地图为什么没有摩托车导航
  日前,国内地图导航平台百度地图宣布,已与春风摩托合作,将推出适配摩托车的车机导航系统,春风摩托旗下的三款车型率先搭载该系统。  图源:百度  可能是因为摩托车用户不...
日期:09-19
虾仁猪心?中国大使中美论坛介绍华为Mate60最新功能_华为mate60概念机
  【手机中国新闻】据环球网报道,近日,在中美知名人士论坛第五次会议上,中国崔天凯大使在现场高调展示华为Mate60手机,并介绍起该机的最新功能,时不时还玩起了自拍,无形之中又为...
日期:10-16