您的位置:首页 > 互联网

OpenAI o1全方位SOTA登顶lmsys排行榜!数学能力碾压Claude和谷歌模型,o1-mini并列第一

发布时间:2024-09-20 13:51:36  来源:互联网     背景:

声明:本文来自于微信公众号 新智元,作者:新智元,授权转载发布。

【新智元导读】o1模型发布1周,lmsys的6k+投票就将o1-preview送上了排行榜榜首。同时,为了满足大家对模型IOI金牌水平的好奇心,OpenAI放出了o1测评时提交的所有代码。

万众瞩目的最新模型OpenAI o1,终于迎来了lmsys竞技场的测评结果。

不出意外,o1-preview在各种领域绝对登顶,超过了最新版的GPT-4o,在数学、困难提示和编码领域表现出色;

而o1-mini虽然名字中自带mini,但也和最新版的GPT-4o并列综合排名第二,困难提示、编码、数学等领域和o1-preview同样登顶第一。

果然,o1模型不愧是通用推理领域的新王。

lmsys社区官方发推表示,这项测试结果收集了6k+社区投票,并将OpenAI这次取得的进展描述为令人难以置信的里程碑。

单纯看排行榜的排名可能不够具有说服力,于是lmsys特意统计了总榜上前25名模型的1v1胜率。

可以看到,o1-preview对所有模型的胜率都超过了50%,对比04-09版GPT-4-Turbo的胜率最高,达到了88%。

o1-mini如果对战o1-preview,胜率为46%,对09-03版GPT-4o的胜率为48%,可以说是大体平手、稍逊一筹的状态。

值得注意的是,虽然Grok-2-mini和Claude3.5Sonnet都排在比较靠后的位置,但o1-preview对这两个模型的胜率并不高,分别是58%和57%,大大小于排名第四的Gemini1.5Pro的69%。

如果看到细分领域的排行榜,尤其是数学/推理领域,效果则更加惊艳。

o1-preview和o1-mini不仅是登顶数学排行榜,而且是体现出了绝对的领先优势。

排在第三、第四的Claude3.5Sonnet、Gemini1.5Pro和08-08版ChatGPT-4o的均分都在1275左右,不相上下;o1-preview和o1-mini则一骑绝尘,分数飙到1360附近,直接碾压。

o1推理团队的领导者之一William Fedus看到这张图也是相当开心,他表示这张图很好地用视觉表达了范式转换。

看来最新的o1模型在STEM学科和通用推理方面的确又达到了新高度,用实际测评结果回应了AI遇冷、OpenAI碰壁的质疑声。

那就继续期待OpenAI接下来的发布吧!

但一些人感叹未来可期的同时,另一些人想到了自己不多的智商和头发。

模型搞得这么好了,测试就不适合我这种蠢人了。

同时,也有一些人表达了对lmsys排行榜结果的质疑。

比如,众所周知的o1模型推理时间长,因而回答的延时也长,和其他模型都有明显差别;而且不同于各类基准测试的客观标准,lmsys社区中完全基于用户的主观评分,难说这里面是否存在安慰剂效应。

也有人不服o1在编码排行榜上的第一,认为虽然o1-mini非常适合进行项目规划,但在Cursor这类编码助手中还是Claude模型的表现最佳。

排行榜的结果当然不是全部,o1模型能否继续赢得口碑,同时保持住智力水平不变蠢,还要看接下来的一段时间。

IOI金牌代码全公开

说到o1模型的编码能力,不知道你还是否记得,刚发布时OpenAI提到了这样一个指标:如果放宽提交约束到每个问题允许1万次提交,o1可以达到高于IOI金牌门槛的分数。

在模拟进行的Codeforces编程竞赛中,使用相同的规则进行评估,o1-preview可以打败62%的人类选手,正式版o1则上升到超越89%的对手。

专门微调过的o1-ioi模型,表现优于93%的竞争对手。

此外,前段时间有用户在实时的Codeforces比赛中使用了o1模型,结果是超越了99.8%的人类选手。

由于o1在编程竞赛领域的表现如此突出,引起了AI社区强烈的兴趣和好奇,OpenAI于是选择发布o1模型提交的代码内容,包括6个问题的全部C++代码以及注释。

发文的yummy是o1模型的核心贡献者Alexander Wei

对于o1的惊艳表现,Alexander Wei自己都很惊讶。

他本人在9年前曾参加IOI竞赛,但从未想到自己这么快就需要和AI竞争,模型展现出的推理过程的复杂程度令人印象深刻。

博文表示,虽然o1模型距离人类的顶级表现还有很长的一段路要走,但我们期待有一天能实现这个目标。

zec是什么车

这个发展轨迹让人想起了AlphaGo——从水平高超,到能和人类顶级高手不分胜负,再到5-0完全碾压李世石。

OpenAI想要达成的,估计就是究极进化的、能在编程上碾压人类顶级高手的AlphaZero。

此处公布代码的6个问题具体如下:

有网友指出,其中最令人印象深刻的应该是象形文字(hieroglyphs)问题,o1模型总共得到44分,在现场的所有选手中排名第四。这表明,模型或许可以破译一些人类无法解决的子任务。

前几天,一位目前在NASA工作的天体物理学博士就尝试让o1复现自己论文中的代码,结果一试吓一跳——自己读博时花了1年写出的代码,o1只用了一小时就写完了。

这还只是裸模型,如果加上代码解释器、网络实时搜索等各种工具,效果想必更加惊艳。

而且,Reddit网友还送来了温馨提示:这只是o1预览版哦,可以狠狠期待一下不到一个月就即将问世的正式版o1了。

此外,这位网友还表示,o1基本沿用了GPT-4的架构;那你想,改换架构后的GPT-5(也就是传说中的猎户座)能达到什么高度。

参考资料:

https://x.com/lmsysorg/status/1836443278033719631

https://codeforces.com/blog/entry/134091


返回网站首页

本文评论
TCL Q10H成为618换电视之选!关注用户反馈或是关键
在电视卖场一干就是十余年,不过今年 618 家里换电视却选择在网上买了一台TCL的Q10H,可能在不少人看来都觉得我这样的做法很奇怪,但作为在电视行业混了这么多年的人,我怎么可能不...
日期:05-24
苹果发布iOS14.5:对广告世界可触达性的影响几何?(ios14.3限制广告)
  Apple在4月26日发布iOS 14.5—LiveRamp从2020年6月WWDC起就为这一天开始做准备了。现在,所有iOS 14.5的用户将被要求针对app追踪和分享其广告标识符IDFA(Apple的移动设...
日期:04-06
Facebook成为全球第二大向媒体网站提供视频内容的流量源_Facebook流量
  北京时间12月24日消息,据外国媒体报道,美国视频广告服务商Tubemogul和视频网站Brightcove近期发布的网络视频和媒体行业报告显示,从第三方媒体网站向视频网站导入的视频流...
日期:07-25
新常态成型,飞连联手Forrester聚焦数字化办公新体验
  随着互联网技术不断发展,在企业办公领域时间与空间的限制正在逐步消弭。但是,当企业面对内外部大量的不确定因素时,以往的办公模式无论是效率、安全性还是体验等各方面都...
日期:01-13
鹿客跨界合作《独行月球》 智能锁新品即将开售
8月16日,鹿客科技创始人兼CEO陈彬在谈及鹿客科技跨界合作《独行月球》时表示,《独行月球》所表达的“守护地球、守护家园”思想,与鹿客智能锁“守护家的安全”的品牌理念高度契...
日期:08-19
扎克伯格: Instagram将引入NFT_instagram贴吧
  北京时间 3 月 16 日消息,扎克伯格透露说,未来几个月 NFT 有希望进入 Instagram 平台,公司计划打开大门,让用户在应用内创造 NFT。   扎克伯格参加会议时表示:“我们正在...
日期:03-20
中国移动云盘内测AI智能工具 上线AI云笔记、图配文等功能_移动云盘有哪些入口
10月7日 消息:中国移动云盘最新发布了AI智能工具,这是一款基于人工智能技术的云端应用,可以轻松生成文章、邮件和图片等各类内容,还能自动整理会议纪要、润色文案并回答问题。...
日期:10-07
博客成为重要网络舆论平台的标准_博客成为重要网络舆论平台
  近几年,中国互联网舆论继续保持了高速发展的态势,网民数量持续攀升,权利意识不断提高,热点话题层出不穷。博客发展迅猛,SNS社群价值凸显,非新闻网站的“硬性化”言论零星出现...
日期:07-25
iOS 16.4体验大翻车!苹果关闭降级通道:只许升新版
快科技4月10日讯,苹果日前关停了iOS 16.3.1验证通道。这意味着,更高版本将无法再降级到iOS 16.3.1系统。目前,苹果开放的验证版本仅限iOS 16.4、iOS 16.4.1和iOS 16.5 Beta。马...
日期:04-10
盲盒经营活动规范指引征求意见:不得通过后台操纵改变抽取结果、随意调整抽取概率等方式变相诱导消费
原标题:   盲盒经营活动规范指引征求意见:不得通过后台操纵改变抽取结果、随意调整抽取概率等方式变相诱导消费 不得设置空盒   每经记者 张蕊;;每经编辑 陈星;;   8月1...
日期:08-17
人工智能模型透明度评估:Llama 2位列第一,GPT-4透明度不佳
要点:神策数据融资1. 十大主流AI模型的透明度正在受到关注,其中Llama2在透明度评估中位列第一,而GPT-4等模型的透明度不佳。2. 斯坦福大学、MIT、普林斯顿大学等团队提出了“...
日期:10-22
月收入3000以下的人到底有多少「专家:月入3000元就算中等收入群体 但不一定过上好日子」
你的收入在社会上处于什么档次?相信这是很多人感兴趣又很迷惑的地方,而答案可能超乎你的预料。据浙江大学资深教授、共享与发展研究院院长李实最新测算,2022年我国中等收入群体...
日期:06-19
首届网络招生渠道管理与技巧大会在京成功举办
在教育行业日益市场化的今天,面对越来越理性、竞争越来越激烈的生源市场,要想在竞争中脱颖而出,获得学生和家长的青睐,学校必须把网络作为最重要的营销工具,迅速发展的网络互动...
日期:07-29
实验室给排水系统设计安装如何降低成本、提高利用率?大橡木集团案例说明_网易科技
(原标题:实验室给排水系统设计安装如何降低成本、提高利用率?大橡木集团案例说明) 在实验室的建设中,给排水系统是确保实验室正...
日期:10-30
小米盒子性能最好的「小米盒子评测」
小米盒子是一款智能电视盒子,它可以连接电视和互联网,让你享受更丰富、更多变的娱乐体验。它不仅可以观看电影、电视剧和直播,还支持游戏和应用下载。下面来看一下小米盒子的评...
日期:05-31
360发布《中国手机安全半年报》:虚假中奖人均损失达7.5万元
黑客攻击qq群  讯 9月1日上午消息,360发布《2022年上半年度中国手机安全状况报告》。报告指出,电信网络诈骗及其背后的黑灰产业链也出现了新变化、新特点,致使安全防护难度增...
日期:09-01
AI女友上架淘宝 GPT商店也被AI女友“占领”了!
1月16日 消息:和偶像进行视频通话曾经是一种遥不可及的奢望,但如今这已经变成了一项有明确价格标签的服务。曙光英雄内测版ios最近,“小冰旗舰店”正式登陆淘宝平台。首批商品...
日期:01-16
更新来了!《黑神话:悟空》新补丁引热议:玩家吐槽刚过魔将妙音难度就被削减
快科技8月28日消息,《黑神话:悟空》游戏迎来了更新,新补丁也是引起了玩家的热议。据悉,1.0.8.14860版本更新已经上线Epic平台,而官方也表示,其他平台也将陆续更新。从玩家晒出的《...
日期:08-28
软件板块借利好政策猛冲 产业催化剂助力前行(加速产业催化)
  借力产业政策扶持,昨日中国软件、浪潮软件等软件板块个股暴涨,成为大盘上行的领头羊。软件股还有持续做多的契机呢?   政策激励成突破口   昨日软件股的涨升,与软件板...
日期:07-24
蔚来es8涨价「蔚来开启降价促销:2022款ES6和ES8降幅最高超过10万元」
2月2日消息:据界面新闻消息,蔚来开始针对2022款ES6和ES8进行降价促销,ES7也有一定的优惠幅度。腾讯利润2020全年净利润从两位销售人员处确认,这一促销方案是2月1日上午例会上通...
日期:02-02