您的位置:首页 > 互联网

击败Llama 2,抗衡GPT-3.5,Stability AI新模型登顶开源大模型排行榜

发布时间:2023-07-23 12:15:38  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:张倩,授权转载发布。

一眨眼,开源大模型又进步了。谷歌、OpenAI真的没有护城河?

「我就午休了30分,我们的领域又变了?」在看到最新的开源大模型排行榜后,一位 AI 领域的创业者发出了灵魂追问。

图片

排行榜链接:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

上图红框中的「新秀」是来自 Stability AI 和 CarperAI lab 的两个大模型:FreeWilly1和 FreeWilly2。刚刚,它们超越了 Meta 三天前发布的 Llama-2-70b-hf,成功登顶 HuggingFace 的 Open LLM 排行榜榜首。

更引人注目的是,FreeWilly2在很多基准上还击败了 ChatGPT(GPT-3.5),成为首个真正可以和 GPT-3.5相抗衡的开源大模型,这是 Llama2都没有做到的事情。

图片

FreeWilly1基于原始的 LLaMA65B 基础模型构建,并且在标准 Alpaca 格式下,使用新的合成数据集进行了仔细的有监督微调(SFT)。FreeWilly2则基于最新的 LLaMA270B 基础模型构建。

从 Stability AI 发布的博客中,我们可以看到这两个新模型的一些细节:

数据来源

FreeWilly 模型的训练方法直接受到了微软在其论文《Orca: Progressive Learning from Complex Explanation Traces of GPT-4》中首创的方法的启发。虽然 FreeWilly 的数据生成过程与之相似,但二者在数据来源方面存在差异。

FreeWilly 的数据集包含了60万个数据点(大约是原始 Orca 论文使用的数据集大小的10%),它是通过以下由 Enrico Shippole 创建的高质量指令数据集来启发语言模型生成的:

  • COT Submix Original

  • NIV2Submix Original

  • FLAN2021Submix Original

  • T0Submix Original

采用这种方法,研究者使用了一个较简单的 LLM 模型生成了50万个示例,并使用一个更复杂的 LLM 模型生成了额外的10万个示例。为了确保公平比较,他们仔细筛选了这些数据集,并删除了来源于评估基准测试的示例。尽管训练样本数量仅为原始 Orca 论文的1/10(相比原始论文大大降低了训练模型的成本和碳排放),但由此产生的 FreeWilly 模型在各种基准测试中表现出色,验证了他们采用合成数据集的方法的有效性。

性能数据

诺亚方舟金融信息公司

为了对这些模型进行内部评估,研究者使用了 EleutherAI 的 lm-eval-harness 基准,并加入了 AGIEval。

其中,lm-eval-harness 基准由 EleutherAI 非盈利人工智能研究实验室创建,前面提到的 HuggingFace Open LLM 排行榜背后运行的就是该基准,它会在 Hugging Face 计算集群的空闲周期中运行评估,并将结果存储在数据集中,然后在在线排行榜空间上显示。

AGIEval 则由微软创建,专门用于评估基础模型在「以人为本」(human-centric)的标准化考试中的表现,比如数学竞赛、律师资格考试。

在许多方面,两个 FreeWilly 模型表现都非常出色,包括复杂的推理、理解语言的微妙之处,以及回答涉及专业领域(如法律和数学问题)的复杂问题。

两个模型在 lm-eval-harness 基准上的评估结果如下(这些 FreeWilly 测试结果是由 Stability AI 研究人员来评估的):

大眼橙投影仪是什么牌子

图片

二者在 AGIEval 基准上的表现如下(全部是0-shot):

图片

此外,他们还在 GPT4ALL 基准上对两个模型进行了测试(全部是0-shot):

苹果官方宣布所有iPhone价格下调

图片

总体来看,这两个模型的性能表现都非常优秀,进一步缩小了与 ChatGPT 等顶级 AI 大模型的差距。想要获取模型的同学可以点击以下链接。

FreeWilly1:https://huggingface.co/stabilityai/FreeWilly1-Delta-SafeTensor

FreeWilly2:https://huggingface.co/stabilityai/FreeWilly2

从各方反应来看,FreeWilly 模型的出现给大家带来了一点小小的震撼,因为它们来得实在是太快了,毕竟 Llama2才刚刚推出3天,排行榜位置都没坐热。有位研究者表示,他最近刚做了眼科手术,一个星期没看新闻,但感觉自己已经昏迷了一年。所以,这是一段「不能眨眼」的时期。

图片

不过,需要注意的是,虽然两个模型都是开放获取的,但和 Llama2不同,它们是以非商业许可的形式发布的,仅可用于研究目的。

图片

然而,这样的做法引起了网友质疑。

图片

对此,Stability AI的研究者回复说,这种情况(仅用于研究目的)只是暂时的,未来,FreeWilly 有望像 Llama2一样允许商用。

图片

此外,也有人对测试采用的基准产生了质疑:

图片

这也是当前一个比较棘手的问题。此前,Falcon 模型在 HuggingFace 排行榜上碾压 Llama 的事件备受争议,后来,该事件彻底反转,事实证明 Llama 并未被 Falcon 碾压,HuggingFace 也为此重写了排行榜代码。在大模型层出不穷的今天,如何有效地评估这些模型依然是一个值得讨论的问题。因此,对于这些登顶排行榜的模型,我们有必要保持更加谨慎的态度,等待更多的评测结果出炉。

参考链接:https://stability.ai/blog/freewilly-large-instruction-fine-tuned-models?utm_source=twitter&utm_medium=website&utm_campaign=announcement


返回网站首页

本文评论
“名人堂成员”驾到 特斯拉将在Q3举行Cybertruck交付仪式
vivo x fold蓝厂首款折叠屏手机spacex重型火箭与星际飞船合体短信积分清零骗局凤凰网科技讯 北京时间4月20日消息,特斯拉CEO埃隆马斯克(Elon Musk)周三在财报电话会议上表示,...
日期:04-20
iphone12现在股价「iPhone 14系列让人购买欲望空前 苹果股价创四个月最大涨幅」
截至9月12日收盘,苹果股价上涨3.85%,创下今年5月27日以来的最大单日涨幅,而且自8月以来首次收于200日平均线以上。今年以来,纳斯达克100指数大跌了22%左右,而苹果股价仅累计下跌...
日期:09-20
马斯克私人飞机降落北京!外交部:欢迎!知情人士透露行程「马斯克公务机」
(原标题:马斯克私人飞机降落北京!外交部:欢迎!知情人士透露行程) 马斯克坐私人飞机落地北京!为什么马斯克...
日期:05-30
三星堆是哪个朝代的「三星d」
,是三星公司旗下的一款手机型号。该手机采用了三星公司的优秀技术和创新设计,为用户带来了优异的使用体验。MacBook Pro 14英寸首先,采用了AMOLED屏幕技术,该技术可以让手机屏幕...
日期:05-31
《“可信AI”评估体系产品手册》正式发布 为人工智能供需双方提供评估标准
凤凰网科技讯 7月3日消息,《“可信AI”评估体系产品手册(2023年6月版)》正式发布,面向人工智能技术的供需双方,提供在人工智能领域的评估测试、联合研究、产业咨询、生态合作等服...
日期:07-03
贴心的智能手表,GarminMove为女性添加「经期追踪」功能_garmin手表定位
  随着科技的日益进步,智能可穿戴设备成为了一种新的生活潮流,智能手表的出现,更是重新定义了手表的价值。Garmin佳明作为可穿戴设备领域的佼佼者,将科技与时尚完美结合,...
日期:10-13
V12动力加身 法拉利SUV国内发布定档:移动的几百万来了!_法拉利有哪些v12车型
近日消息,快科技从相关渠道获悉,法拉利首款SUV车型Purosangue将于10月24日在国内正式亮相,该车此前在9月14日全球首发,但需要注意的是,新车在法拉利内部不被定义为SUV车型,而是FUV...
日期:10-26
飞猪:今年国庆周边游订单量较春节增超80% 云旅游成热门选项「飞猪旅游产品」
10月8日 消息:近日,飞猪发布国庆旅游消费观察报告。数据显示,今年国庆周边游订单量较春节增超80%,其中,云旅游成为本地旅游消费的热门选项之一。旅游方式上,私密安全且时间自由的...
日期:10-21
《哪吒》的成长史告诉我们,原来陪伴也可以这样“别致”_哪吒给我留下的印象
  暑假最火动画电影非《哪吒之魔童降世》莫属,票房不断攀升进入内地影史前十,吸引不少家长都带着家里的“小哪咤”前去观看,承包了观众所有的欢笑和感动。影片中李靖和殷...
日期:09-27
内容、人群、商业生态:「今日头条」在变化「今日头条内容运营」
文章目录 信息内容刚需 多元兴趣拓展 高知高线人群 消费主流覆盖 完整商业生态 打通流量经营 声明:本文来自于微信公众号 深响(ID:deep-echo),作者:祖杨,授权转载发布。做内容营...
日期:12-15
全量释放多云+云网势能,联通沃云荣获NIISA联盟2020两项年度大奖
  随着全球第四次工业革命的重要战略机遇期到来,国家创新竞争态势激烈,以5G、云计算为代表的新一代信息技术和以数字化为核心的新型基础设施正在成为全球产业竞争和投资布...
日期:07-16
打开网络营销转化率核心的金钥匙(网络营销的关键点)
  随着电子商务的发展,网络营销作为一种营销活动形式,在企业整体营销战略中的地位越来越重要。网络营销贯穿于企业开展网上经营的整个过程。不少企业投入几万几十万到,可见...
日期:07-30
Palm前高管称iPhone是最佳手机 没用过Pre_iPhone pal
  Palm前高管马瑞娜·莱文森(Marina Levinson)日前表示,苹果iPhone是最佳智能手机,没有想过要尝试Palm Pre。   莱 文森在接受采访时称:“在加盟NetApp之前,我是Palm的首席...
日期:07-29
扎克伯格app「扎克伯格宣布大胆计划:将 AI 融入Meta 的每一个产品」
6月12日 消息:Meta 前 Facebook 首席执行官马克·扎克伯格 (Mark Zuckerberg) 有一个大胆的新计划,目的是为 Meta 拥有的产品增加一些吸引力,也就是将在每一个产品中都加入一些...
日期:06-12
故宫五一假期前3天门票已售罄「故宫回应五一假期门票售罄 半小时内就抢完」
“五一”长假即将来临,各地的人气景点门票已经售罄。故宫博物院的在线预约页面显示,4月29日至5月3日的门票已经没有了。故宫的一名工作人员表示,门票是一次性放出的,故宫不打算...
日期:04-28
创业互联网思维_开放平台时代的创业思维
文/柳华芳 在今天,“开放”在互联网圈子里的热度应该超过了艳照,大大小小的互联网企业都在关注开放的互联网,而腾讯的全面开放则标志着整个产业步入了一个开放的时代。开放不...
日期:07-30
美官方:硅谷银行储户可支取存款 计划提供250亿美元支持「svb硅谷银行」
据CNBC报道,知情人士透露,美国金融监管机构正在讨论两种不同的机制,以管理在没有买家出现的情况下硅谷银行关闭的影响。谦寻薇娅老公梅赛德斯奔驰carplay家庭智能电视联网据消...
日期:03-13
中科三方与中国中铁签署SSL证书项目协议,技术实力再获肯定「中国中铁科技研发中心」
2022 年 5 月,中国中铁股份有限公司启用北京中科三方网络有限公司提供的CFCA通配符证书,为其所属主域名及二级子域名提供SSL证书加密服务,提升了其网站安全防护能力,数据安全性...
日期:06-29
马斯克发推特说市值「马斯克3200亿完成收购:推特将从纽交所退市」
日前,马斯克已完成以440亿美元(约合人民币3220亿)将推特私有化的交易,并已掌管公司。马斯克本人还抱着一个水槽入主了推特总部,并第一时间解雇了多名高管,包括CEO Parag Agrawal、...
日期:10-29
联想a3000平板电脑「联想a3000h平板电脑」
是一款经典的安卓平板电脑,具有高性能和时尚设计。该平板电脑是联想公司推出的一款中端设备,拥有良好的性价比,深受消费者喜爱。下面就来一起看看这款平板电脑的详细情况。外观...
日期:05-30