您的位置:首页 > 互联网

GPT-4o攻破ARC-AGI无法被挑战的神话!71%准确率成新SOTA

发布时间:2024-06-20 18:21:53  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】号称不可能轻易被击败的AGI基准ARC-AGI被GPT-4o撼动,GPT-4o以在公共测试集50%、在训练集71%的准确率成为了新的SOTA!

ARC-AGI是唯一可以用来衡量通用人工智能进展的基准,创造者François Chollets曾经掷下豪言——

七彩虹cvnz 690 v20主板怎么样

它不可能轻易被击败!

为了测试这一点,他于2020年在 Kaggle(Google LLC旗下的数据科学竞赛平台)上主办了首届ARC-AGI竞赛。

获胜团队icecuber在测试集上仅取得了21%的成功率,这个成绩强有力地证明了François的断言是正确的。

此后几年,来自世界各地的挑战者不断刷新这个纪录,但进展缓慢。ARC-AGI似乎成为了一座不可跨越的高山。

可是这周二,ARC-AGI基准无法被挑战的神话被GPT-4o撼动了!GPT-4o以在公共测试集50%、在训练集的保留子集71%的准确率成为了新的SOTA!

ARC-AGI上周被大肆宣传为LLM无法解决的基准。这个说法激发了我亲爱的同事Ryan Greenblatt的斗志,因此他上周试图用 LLMs 来解决这个问题。Ryan在一组示例中获得了71% 的准确率,而人类的准确率为85%;这(GPT-4o)是SOTA。

这个消息也迅速登上了HN热搜榜。

值得一提的是,今年Mike Knoop、François和Lab42联手创建了2024年ARC奖,奖金池超过110万美元。

为了完成这个挑战,Ryan放弃了一个星期的项目,设计了很多花哨的技巧,争取了高性能:

训练集:71% vs. 人类基线85%

测试集:51% vs. 之前的 SOTA34%(人类基线未知)

但遗憾的是,此提交不符合 ARC-AGI 奖项和主要排行榜的资格,因为它使用闭源模型和过多的运行时计算。

可能Ryan会提交到私人排行榜中吧。

什么是ARC-AGI?

ARC-AGI的数据集由视觉问题组成,输入输出示例是由彩色单元格组成的网格,任务是猜测从输入到输出的转换规律,然后补全缺失的网格。

看起来很简单对吧,就像是小学的奥数题,让GPT-4o来解决也并不困难。

不过,公共测试集中的任务要难得多,对于人类来说,也会有些棘手,但并非不可解决。

每一项ARC-AGI任务都是经过人工验证的,包括公共测试集,确保ARC-AGI的所有任务都可以由人类解决。

毕竟这是一个通用人工智能基准,如果连人类自己都难倒了,那拿去测试LLM也说不过去。

据报道,亚马逊土耳其机器人( Amazon Mechanical Turk,MTurk) 训练分布的人类基线是85%,但没有针对公开测试集的人类基线,不过我们已知的是,公开测试集更难,那么针对公开测试集的人类基线应该会更低。

Ryan给出了测试集中的一些代表性的问题,以及他基于GPT-4o的解决方案是否回答正确。

问题1:

问题2:

问题3:

从Ryan给出的这3个例子中可以看出,GPT-4o答对了三分之一。(跟小编的胜率一样,前2个图密密麻麻,没看出个所以然来…)

小霸王游戏机经典游戏电脑版

怎么让GPT-4o做到的

Ryan的解决方案的主要思路非常简单:让GPT-4o生成约8000个尝试实现转换的python程序,选择一个在所有示例(通常有3个示例)中都正确的程序,然后提交该函数应用于额外测试输入时产生的输出。

Ryan以图像和各种ASCII表示形式向GPT-4o展示了该问题。

这种方法在本质上与AlphaCode中应用的方法类似,在AlphaCode中,一个模型会生成数百万个试图解决编程问题的完成项,然后对这些完成项进行汇总,以确定要提交的内容。

从更高层次上来解释,Ryan使用的方法是:

  • 向GPT-4o介绍ARC-AGI 的问题,并为问题中的每个网格提供图像表示法和各种文本表示法。

  • 指导GPT-4o推理背后的规律,进一步推理如何用代码实现转换,最后用代码实现。

  • 使用几次提示以及几个精心手写的分步推理示例来实际让GPT-4o有效地进行此推理。生成的提示通常长度约为30k个token(包括图像)。

  • 从GPT-4o中抽取大量的完成样本(每个问题约5000个)。

  • 针对每个问题选取最有希望的12个补全,然后通过向GPT-4o展示该程序在示例中的实际输出,并要求GPT-4o修改代码使其正确,从而尝试修复每个补全。

  • 然后,根据对正确示例程序的多数投票结果,选出3个提交程序。

概括来说,Ryan通过足够长的、精雕细琢的少样本提示,生成许多可能的Python程序,从大约5k个猜测中,使用示例选出最佳猜测,然后进行调试。

除了对训练集进行迭代外,Ryan还对公共测试集的100个问题子集进行了少量迭代。

在这里介绍的所有结果都是在不重叠的公共测试集的另一个子集上计算得出的。

训练集和测试集不是独立的,而且测试集的难度更大,因此使用测试集的子集进行迭代有助于快速更好地了解问题随难度的变化。

不幸的是,这些测试集不是独立同分布(Independent Identically Distribution,IID):这使得迭代变得更加困难和混乱。

关于方法的更多细节,以及完整的解决方案,可以参阅项目的GitHub:

https://github.com/rgreenblatt/arc_draw_more_samples_pub

采样每增加一倍,精度提高3%

如果有更多的采样,性能会有所提高吗?

答案是会的!

缩放Python采样数量可以可靠地提高性能,每增加一倍,精度提高3%。

而且这距离AlphaCode使用的数百万个样本还很远!

GPT-4o存在的非推理弱点

  • GPT-4o看不清楚。GPT-4o在网格上的视力很糟糕,当被要求描述一个较大的网格中的内容时,它通常无法正确看清输入,并陈述有关某些位置的颜色或存在的形状的错误事实。

3060ti是gddr6x吗

  • GPT-4o不太擅长编码(特别是对于此类几何操作问题),并且经常犯一些简单的错误,例如差一错误(Off-by-one error,OBOE)。

  • 当上下文中的token超过32k时,其性能会下降。

消除这些非推理弱点将显著提高解决方案的性能,而这些问题似乎很可能通过规模化(scalling)来解决。

距离ARC-AGI大奖还有多远?

如何才能达到ARC-AGI所设定的85%的大奖目标呢?

Ryan做出了非常数据化的预测。

70% 的可能性:一个由3名顶尖ML工程师组成的团队,通过微调GPT-4o(包括 SFT 和 RL)、1000万美元的计算量和1年的时间,可以使用 GPT-4o 超越MTurk85%的人类基线(简单训练集)。

35% 概率:在上述同等条件下,公共测试集上的概率也可达85%。目前还不清楚哪些人在测试集上的表现 >=85%,尽管这对于聪明的人来说可能并不难。

80% 的概率:下一代多模态大模型(例如 GPT-5)将能够大幅提高 ARC-AGI 的性能。

LLM有学习能力吗

Ryan引用了François Chollets的一段话——

如果你是对的(LLMs可以进行情境学习),那么,LLMs在ARC谜题上会表现得很好,因为 ARC 谜题并不复杂。你不需要认真思考它,它们实际上对人类来说非常明显。

即使是孩子也可以做到,但LLMs不能。即使 LLMs 的知识比你多100,000倍,仍然做不到。ARC唯一的特殊之处在于它的设计初衷就是为了抵制记忆。这是 LLM性能的巨大障碍。

如果仔细观察LLMs,很明显他们并没有真正即时合成新程序来解决他们面临的任务。

Ryan则认为,LLMs在进行上下文学习时实际上做了一些相关的学习。

尽管整体性能非常弱,远远不如人类(否则他就不需要在他的解决方案中抽取数千个样本),但这仍然是一种学习。

我的观点并不是说GPT-4o相对于人类来说是聪明的,但我确实认为它是具有『智能』的。

参考资料:

https://x.com/bshlgrs/status/1802766374961553887

https://redwoodresearch.substack.com/p/getting-50-sota-on-arc-agi-with-gpt


返回网站首页

本文评论
每日优鲜注销不了「每日优鲜浙江公司注销 原因为决议解散」
  企查查App显示,近日,浙江每日优鲜电子商务有限公司注销,注销原因为决议解散。企查查信息显示,该公司成立于2019年,法定代表人为张二迁,注册资本1000万元人民币,经营范围包含:食...
日期:09-30
美国灯具国内可直接使用吗「8月1日起生效 美国禁止销售白炽灯泡:效率太低」
快科技7月30日消息,根据美国能源部的新规定,从8月1日起,美国将禁止销售白炽灯泡,转而推广节能灯泡。这一举措旨在节约能源,降低碳排放,减少消费者的电费支出。据介绍,白炽灯泡的效...
日期:07-30
弹窗广告“霸屏”问题将被重点监管_弹窗广告彻底关闭
  来源:工人日报哈弗h6和coupe晚期癌症有活过5年以上的吗  本报北京9月28日电 (记者杨召奎)记者今天从国家网信办获悉,由国家网信办、工业和信息化部、市场监管总局联合发布...
日期:10-03
马斯克推特最新新闻「马斯克领导推特构成威胁?外国官员:应直接被监控」
凤凰网科技讯 北京时间12月22日消息,据路透社报道,一名德国高级官员周四表示,推特应该和其他科技公司一样,由欧盟委员会直接监控,称该公司在新所有者埃隆马斯克领导下的不稳定行...
日期:12-22
一加 nord n100「一加Nord 3现身Geekbench:搭载联发科天玑9000芯片,配备16GB内存」
据最新爆料,一加即将推出新款 Nord 系列智能手机 OnePlus Nord 3。该手机已经在 Geekbench 上亮相,搭载联发科天玑 9000 SoC,单核和多核分别获得 1153 分和 3180 分,预装 Androi...
日期:06-14
知名AI研究员Geoffrey Hinton认为AI可能将拥有情感「ai研究者出自中国」
7月24日 消息:著名 AI 研究员弗里·辛顿 (Geoffrey Hinton) 离开谷歌后成为头条新闻,他警告世界有关大规模假新闻和自主武器等人工智能威胁。华为轮值ceo徐直军简介小米civi 1s...
日期:07-24
搜索反垄断诉讼第一次较量:美司法部称谷歌“斥巨资”非法维持老大地位
  讯 北京时间9月9日早间消息,据报道,当地时间周四,在一宗反垄断诉讼的听证过程中,美国司法部向联邦法庭指控称,Alphabet旗下谷歌公司每年向苹果、三星电子和其他电信巨头支付...
日期:09-10
冰岛宣布紧急状态:火山即将大爆发?“世界末日”要来了吗?_冰岛火山喷发事件
蠕动的岩浆,正沿着一条长度 15 公里的裂隙缓缓爬行并越涨越高,距离地表已不足 800 米……而地面上,是一座有几千居民的小镇。这不是什么《活火熔城》之类的科幻大片里的场景,而...
日期:11-17
手机安全威胁呈急速增长 去年恶意软件增46%_应用安全威胁
  据国外媒体报道,著名安全软件制造商McAfee公司近日称,由于智能手机与平板电脑这类移动上网设备的强劲增长为网络犯罪提供了新机会,去年手机受到的安全威胁也在急速增长。...
日期:07-26
新能源充电电费「新能源刺客:充电费暴涨,油车又香了?」
东风风光580竞争车型作者 |福里斯特 编辑|陆一鸣 题图|《狂飙》7月底,随着国内第15轮油价调整正式到来,每吨汽、柴油价格不出意料地上涨了200元,全国各大城市的加油站前,又挤满...
日期:08-01
腾讯将开发《怪物猎人》手游 与卡普空合作「腾讯将开发《怪物猎人》手游 与卡普空合作的游戏」
中关村在线消息:近日,腾讯与卡普空宣布,将会合作开发《怪物猎人》手游,据了解,官方将该作品称为“再现定义《怪物猎人》系列的狩猎动作”,同时提供“移动设备独有的新游戏体验。”...
日期:11-14
开启年轻人潮流夜拍新体验 「三星Galaxy」-A54 5G评测_三星a525g评测
一直以来,三星Galaxy A系列凭借洞察年轻人对科技生活的需求以及亲民的售价而深受年轻人群追捧。上个月,新一代的A系列成员——三星Galaxy A54 5G新品正式开售,为年轻人群带来了...
日期:09-17
张学友演唱会视频片段「张学友首度回应演唱会摔倒:心理会有影响 原因是耳水不平衡」
快科技10月18日消息,今年8月份,61岁的张学友在马来西亚演唱会上突然跌倒,因为他从小就有耳水不平衡”的问题。近日,张学友在记者会上再次谈到了这个事情,称当时是自己唯一在台上...
日期:10-19
iPhone备忘录被曝莫名清空!苹果客服称可帮恢复_苹果备忘录修复
相信有很多用户会选择在手机备忘录中记录一些比较重要的事情,并设置提醒时间,避免因工作等原因疏忽忘记,然而近日有iPhone用户反馈称,自己遇到了备忘录被莫名清空的问题。据了解...
日期:10-15
中国信通院何宝宏:开源从“通用”走向“场景化”,下一代开源正在路上
通信世界网消息(CWW)2021年,“开源”被首次写入国家“十四五”规划,开源凭借开放、协作、共享的特点,已成为全球软件开发和产业创新发展的主导协作模式,为信息技术高质量发展提供...
日期:09-21
红杉中国又放了一个大招_红杉中国在哪
  文/张楠   红杉中国,又放大招了。   今日,红杉中国下场做起了培训,宣布推出“YUÈ——红杉中国创业加速器”,定位为“创业者的第一课”,目标是提高早期创业成功率,踏实基...
日期:08-17
达量限速后不再收费什么意思_达量限速终结是变相涨价?
  (原标题:达量限速终结是变相涨价?专家:该套餐致4G流量激增体验降速)   在4G流量红利逐渐见顶的当下,达量限速套餐的停售,似乎已经成为运营商摆脱夸大宣传印象、降低4G网...
日期:01-17
第十五年“双11”:重回低价,能重返旧梦?
“双11”兜兜转转又回到了“低价”。近日,淘天集团、京东等各大电商均公布今年“双11”的玩法和节奏,无一例外将在价格上大打出手,淘天喊出“全网最低价”并承诺买贵必赔,京东直...
日期:10-23
企业借助旧版IE6阻止员工访问社交网站
  微软澳大利亚首席安全顾问斯图尔特·斯特拉思迪(Stuart Strathdee)表示,如果企业希望禁止员工访问Facebook等社交网站,便不会对IE浏览器进行升级。   斯特拉思迪说:“很...
日期:07-29
TikTok测试“附近”功能 分析人士:将蚕食Ins、谷歌等市场份额_tiktok和谷歌
8月25日消息,热门短视频应用TikTok证实,其正在东南亚市场的部分用户当中测试名为“附近”(Nearby)的新功能,允许用户直接浏览附近用户发布的视频。对于TikTok用户来说,这一新功能...
日期:08-25