您的位置:首页 > 互联网

AI抢攻人类奥赛金牌!DeepMind数学模型做对25道IMO几何题,GPT-4惨败得0分_imo数学竞赛考试范围

发布时间:2024-01-18 22:41:12  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】今天,谷歌DeepMind的AlphaGeometry模型登上了Nature!30道IMO几何题中,它能做出25道,已经接近人类金牌选手的水平!而GPT-4,却一道题都没做出来,直接挂了零蛋。

谷歌DeepMind的AI智能体,又破纪录了!

这个名叫AlphaGeometry的AI系统,能做出国际数学奥林匹克(IMO)的30道几何题中的25道,这个表现,已经接近了人类的奥数金牌得主。

从此,AI在数学领域的推理能力再次实现史诗级升级,超越此前的最高水平。

这一研究已经登上Nature。

论文地址:https://www.nature.com/articles/s41586-023-06747-5

下面这道IMO大赛几何真题,曾经难倒了一大批参赛选手,而如今,AI却能把做出来了!

更特别的是,这个模型是靠合成数据训练出来的,而非通常使用的真实数据。

训练过程是这样的:先初始生成了十亿个随机几何图形,全面分析每个图形中点和线的所有关系。

随后,AlphaGeometry找出了每个图形中所有的证明,并反向追溯出为得到这些证明所需添加的额外几何元素(如果有的话)。

就这样,AlphaGeometry结合了神经语言模型和符号演绎引擎的优势,已经形成了一个神经符号系统。

两个系统中一个提供快速提供直觉式的想法,另一个负责更谨慎理性的决策。一个大胆假设,一个小心求证,不断改进方案,为复杂的几何定理找到证明。

而合成数据的思路,也为大模型语料不足的问题,提供了崭新的出路。

网友惊呼:这简直就是创造了历史!

OpenAI研究科学家,德扑AI之父Noam Brown表示,祝贺GoogleDeepMind团队取得这个成绩!看到AI在高等数学方面取得了如此大的进步,令人兴奋。

真题实测

imo数学竞赛满分有多难

话不多说,我们直接上真题。

已知等腰三角形ABC中,AB和AC的边长相等,求证:∠ABC=∠BCA。

等腰三角形的底角相等,这是学过初中数学的人都知道的常识(等腰定理1),可是要怎么证明?

AlphaGeometry的做法是,通过运行符号推理引擎,来启动证明搜索。

这个引擎会从定理前提中不知疲倦地推导出新语句,直到定理被证明,或新语句被穷尽。

但如果符号引擎无法找到证明,语言模型就会构造一个辅助点,在符号引擎重试之前增加证明状态。

如是循环,一直到找到解决方案为止。

比如,在第一个辅助构造D作为BC的中点之后,环路终止了。

随后就开始证明过程,证明由另外两个步骤组成,这两个步骤都利用了中点的特性:BD = DC,B,D,C是共线的。

此后不断循环,直至证明∠ABC=∠BCA。

与此同时,2015年IMO的P3,也被AlphaGeometry轻松搞定。

如果要做对这道题,需要构建三个辅助点。

在这两种解决方案中,研究者将语言模型的输出(蓝色)和符号引擎输出交错排列,反映出了执行顺序。(具体证明过程见论文)

甚至,AlphaGeometry还在IMO2004P1中,发现了未被使用的前提。

由于提取最小前提所需的回溯算法,AlphaGeometry识别了一个对证明工作来说不必要的前提:O不必是BC的中点,P、B、C 就是共线。

其中,右上是原始定理图,底部是广义定理图,其中O从其中点位置释放出来,而P仍然停留在直线BC上。

原始问题要求P介于B和C之间,这是广义定理和解决方案无法保证的条件。但AlphaGeometry就解决了这一点。

此外,在做2008年IMO P6的证明题中,AlphaGeometry却失败了。这是所有30个问题集中最难的一个,人类平均得分仅为0.28/7。

值得一提的是,北大韦神曾连续两届以满分拿下了IMO2008、IMO2009的金牌。

为什么考AI要用奥数题

怎么评价一个AI系统的数学和逻辑推理能力够不够强?

那自然是给它上最难的数学题,比如IMO的原题。

毕竟,能参加国际数学奥林匹克竞赛的,都是全世界数学最优秀的高中生,可以说代表了全人类的最高水平。

所以这一次测试,也可以看作AI和人类的对决!

专家们从2000年至2022年间的IMO竞赛题中,选出了30道,组成了IMO-AG-30基准测试集,然后在限定的比赛时间内,让选手们展开对决。

对决结果是,谷歌DeepMind的AlphaGeometry,已经接近了IMO金牌选手的水平。

人类金牌选手平均能解出25.9道题,而AlphaGeometry能解出25道,可以说已经无限逼近人类。

而此前的SOTA AI系统吴氏方法,仅能解出10道题。

朋友圈点赞广告文案

除了吴氏方法,在AlphaGeometry与其他最先进的方法比较中,30道IMO试题,GPT-4一道也不会做,直接得了0分!

要知道,以前的AI智能体在处理复杂的数学问题时,时常受困于推理能力不足,以及训练数据的缺乏。

但AlphaGeometry的不同之处在于,它结合了结合了神经语言模型的预测力,和基于规则的推理引擎,让这两个系统协同作业,从而寻找解决方案。

研究者还开发了一种方法,可以生成大量的合成训练数据——高达1亿个独特样本。

这样,就可以在有效解决数据不足的问题,在不依赖人类示范的情况下训练AlphaGeometry。

通过AlphaGeometry,我们可以看出AI在逻辑推理、发现和验证新知识方面的能力,在不断增强。

今天,AI已经可以做出奥林匹克级别的几何题,再过一段时间,可能就会出现更高级、更通用的AI系统,直至某天出现AGI。

现在,谷歌DeepMind已经把AlphaGeometry的代码和模型开源,希望它们能和其他合成数据生成和训练的工具一起,为数学、科学和AI领域带来新的机遇。

imo数学竞赛最难平面几何

项目地址:https://github.com/google-deepmind/alphageometry

几何证明双重buff:大模型+符号推理引擎

具体来说,AlphaGeometry是由2个主要组件构成的神经符号系统(neuro-symbolic system):

1. 神经语言模型

2. 符号推理引擎

这个AI系统便是通过以上两个部分协同工作,实现复杂的几何定理证明。

谷歌DeepMind团队在此引用了思考:快与慢这本书中的理念。

这有点像我们的『直觉思维』和『逻辑思维』:一个系统提供快速,基于直觉的想法,而另一个系统则进行更为缜密、基于逻辑的决策。

这里,神经语言模型就是系统1,擅长发现数据中的普遍模式和关系,能够迅速预见到可能有帮助的几何构造。

然而,它们往往不擅长严密的推理,也不能解释自己的决策过程。

符号推理引擎则不同,可以看作是系统2。

它们基于形式逻辑(formal logic),按照明确的规则得出结论,这些结论既合乎逻辑又能解释清楚。

极米new z6x投影仪

不过,符号推理引擎在解决大型、复杂问题,可能会显得缓慢且不够灵活。

AlphaGeometry在解决一个简单问题时的过程:首先,给定问题及其定理假设(左图),AlphaGeometry(中图)利用其符号引擎对图形进行逻辑推理,从而推导出新的结论,直至找到答案或无法进一步推导。如果答案未找到,AlphaGeometry的语言模型就会引入一个潜在有助于解题的新图形元素(以蓝色表示),为符号引擎提供新的推理途径。这个过程会不断重复,直到找到问题的解决方案(右图)。在这个示例中,仅需加入一个新的图形元素。

AlphaGeometry语言模型的作用就在于,指引符号推理引擎寻找解决几何问题的可能路径。

一般来说,IMO级别的几何题往往基于图表,需要在图表中添加新的几何元素,比如点、线或圆,才能找到解答。

AlphaGeometry的语言模型能够预测,在无限可能中哪些新元素最有助于解题。这些提示有助于补全信息的空缺,使得符号引擎能够对图表做出更多推断,并逐步逼近正确答案。

举个栗子,AlphaGeometry解决了2015年国际数学奥林匹克竞赛第三题(如下),右边是解题过程的精华部分。

整个解题的过程,共计109步逻辑推理。

图中的蓝色部分表示新增加的图形元素

此外,谷歌团队还让AlphaGeometry去解决IMO2005的P3,共用了110步完成。

完整解题步骤:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphageometry-an-olympiad-level-ai-system-for-geometry%20/AlphaGeometry%20solution.pdf

1亿个合成数据,从0训练AI

AlphaGeometry解决数学的能力如此强悍,而更让人震惊的是:仅用合成数据从0开始完成训练。

正如谷歌DeepMind所言,因为缺乏训练数据,AI系统一直难以解决棘手的几何问题。

对此,研究人员采用了合成数据的技术,模拟知识积累过程,无需任何人类演示教学,从0基础开始训练AlphaGeometry。

如下图所示,便是通过合成数据生成的随机图形的部分示例。

谷歌使用了10万个CPU,最初生成了10亿个几何对象的随机图,并对每个图表中的点和线条之间的所有关系进行了全面的推导(运行符号演算和回溯过程用了3-4天)。

AlphaGeometry合成数据生成过程

AlphaGeometry不仅找到了每个图表中的所有证明,还逆向追溯,确定为了得出这些证明需要增加哪些图形构造。

研究人员将这个过程称为符号演绎与追溯。

AlphaGeometry生成合成数据的可视化

在这庞大的数据集中经过筛选,剔除重复的样本,最终获得了1亿个涵盖不同难度级别的独特训练样本的数据集。

其中,还包含了900万个附加构造的样本。

AlphaGeometry的语言模型通过分析这些构造,如何帮助完成证明的众多案例,能够在处理奥林匹克级几何题时,提供有效建议,设计出新的几何构造。

对生成的合成数据的分析

IMO金牌得主盛赞,AI开创数学推理先河

AlphaGeometry针对IMO赛题给出的解答,都通过了计算机验证。

谷歌DeepMind将成果与先前的AI方法,以及奥林匹克竞赛中的人类选手表现进行了比较。

AlphaGeometry证明步与IMO参与者在不同问题上的平均得分

值得一提的是,他们还请来数学教练及IMO金牌得主Evan Chen评审了AlphaGeometry的部分解答。

AlphaGeometry的输出结果令人称赞,它不仅可以经得起验证,而且表述清晰。以前的AI在解决证明类竞赛题目时,其解答有时候不够可靠(输出结果时对时错,需要人类进行核查)。AlphaGeometry不会出现这样的问题:它的解答具备可由机器验证的结构。

即使如此,它的输出也便于人类理解。原本可以设想的是,一款计算机程序通过暴力破解坐标系统来解决几何题目,那将是一连串枯燥的代数运算。但AlphaGeometry并非如此,它采用的是学生们所学的传统几何规则,包括角度和相似三角形的知识。

每场IMO竞赛中,共有6道题目,通常只有2道与几何有关。

因此,AlphaGeometry只能在大约三分之一的奥赛题目中发挥作用。

尽管如此,它在几何领域的能力,已足以让它成为世界上首个通过2000年和2015年国际数学奥林匹克铜牌标准的AI模型。

在几何题解决方面,AlphaGeometry已经接近IMO金牌选手的水平。

谷歌DeepMind称自己的野心不止于此,还希望推动下一代AI系统在推理方面的发展。

从0开始,利用大规模合成数据对AI系统进行训练,这种方法有望影响未来AI系统在数学和其他领域的新知识发现范式。

其实,在构造出AlphaGeometry系统之前,谷歌DeepMind和Google Research在AI数学推理上,做了大量的奠基性工作。

此前,谷歌DeepMind就曾推出FunSearch,打破了LLM首次在数学领域未解之谜上取得发现的纪录。

而谷歌DeepMind的长期目标,就是打造能跨越不同数学领域、具备解决复杂问题、能够进行高级推理的AI系统,直到实现AGI。

网友:AGI 奇点临近

imo数学竞赛平面几何

AlphaGeometry诞生,堪比AlphaFold、AlphaCode等阿尔法家族面世在AI领域掀起的巨震。

与此同时,合成数据的重要性和潜力也愈加凸显。

Google DeepMind联合创始人兼首席AGI科学家Shane Legg称,我还依稀记得1990年Christchurch的New Zealand IMO训练营里试图解决疯狂的几何难题,现在看到人工智能在这方面变得如此出色,我有点震惊!AGI越来越近了。

昨天,UCLA博士生Pan Lu关于数学推理基准MathVista研究被ICLR2024接收为Oral论文。

在看到谷歌最新研究后,他表示,2021年,我们探索了几何学的早期研究:我们的InterGPS,一个神经符号求解器,第一次达到了人类的平均水平。现在,AlphaGeometry标志着历史性的突破:获得了奥林匹克级别的技能!

有网友表示,这简直就是一个大事件。数学推理可以延伸到物理学,物理学也可以延伸到化学和生物学。未来几年,人工智能可能会主导研究。奇点正在逼近。

大多数在职的数学家都无法做到这一点,尤其是在规定的时间内。仅用合成数据进行训练,表明数学没有数据瓶颈。因为我们可以轻松地生成无限高质量的合成数据。

英伟达机器学习科学家Shengyang Sun好奇地问,这些合成问题会在IMO2024出现吗?

CMU机器学习博士Jing Yu Koh表示,2024年是合成数据年!我非常喜欢几何领域,因为你有办法将其与现实世界相结合,以确保合成数据的有效性。

参考资料:

https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/

小米电视开不开机怎么回事儿

https://www.nature.com/articles/s41586-023-06747-5

苹果第三方magsafe充电功率


返回网站首页

本文评论
专家称李佳琦直播间和田玉只值100多 证书没问题,卖贵了
日前,李佳琦直播间销售的和田玉项链真假问题引发网友关注。有珠宝玉石质量检测师指出,这两个证书都是下等品的和田玉,但价格被标得很高。珠宝玉石质量检测师“曲直_看海”认为,...
日期:10-30
索泰发布新款迷你PC:搭载9代酷睿和RTX显卡
  8月8日消息 索泰今天发布了MAGNUS E系列ZBOX迷你PC,62.2毫米厚,搭载9代英特尔酷睿处理器和NVIDIA GeForce RTX显卡。     新MAGNUS E系列最高支持英特尔移动端第9代6...
日期:09-27
国家主席习近平发表二〇二四年新年贺词
新年前夕,国家主席习近平通过中央广播电视总台和互联网,发表了二〇二四年新年贺词。全文如下:哪吒汽车上半年销量大家好!冬至阳生,岁回律转。在这辞旧迎新的美好时刻,我在北京向大...
日期:01-01
小爱同学打开朗读功能「小米小爱同学上线朗读屏幕功能」
9月29日 消息:今日,小米旗下人工智能助手小爱同学宣布,朗读屏幕功能正式上线。用户只要在公众号、浏览器界面,语音或按键唤醒小爱同学,说出口令“朗读屏幕”即可。蔚来汽车股价...
日期:10-04
Pika1.0官网体验入口 Ai图生视频免费工具使用地址_pikashow app
Pika1.0是一款AI视频生成软件。这款软件可以生成和编辑3D动画、动漫、卡通和电影等各种风格的视频。它支持实时修改视频、延长视频长度、转换视频风格(如真人转换为动画)、扩...
日期:12-07
小红书的“买手”电商,远水难解近渴_小红书网购怎么样
声明:本文来自于微信公众号 TopKlout克劳锐(ID:TopKlout),作者:来生,授权转载发布。可能没有人想到,今年双十一的第一份成绩单来自小红书。10月15号,小红书“买手”章小蕙直播带货...
日期:11-03
中兴通讯5G-A创新开启新征程——助力5G二次腾飞,迈向6G未来网络_中兴通讯建设5g基站吗
通信世界网消息(CWW)5G商用4年多,中国已经成功领跑5G的上半场:截至10月末,5G基站总数达321.5万个,占移动基站总数的28.1%;5G移动电话用户达7.54亿户,占移动电话用户的43.7%;2023年我...
日期:12-06
创建非盈利组织,谷歌联合创始人布林卖掉特斯拉股票套现3.6亿美元
4 月 23 日消息,谷歌联合创始人谢尔盖・布林 (Sergey Brin) 正致力于斥资 5 亿美元创建专注于健康和气候变化的非营利组织。监管备案文件显示,布林此举迄今为止的大部分资金来...
日期:10-02
Epic商城假日特卖开启:17款游戏免费领、6.7折优惠券不限量_epic免费游戏活动
快科技12月14日消息,从Epic商城官网获悉,Epic游戏商城2023年节日特卖今日正式开启,这是Epic全年最大的优惠力度。ps3模拟器amd处理器不仅带来数千款折扣游戏,还有不限量6.7折Epi...
日期:12-14
武则天的传说皮肤「《王者荣耀》兔年春节福利一览:武则天神器传说皮肤来了」
兔年春节降至,这已经是《王者荣耀》与大家一起度过的第8个年头了。春节福利、新皮肤今年自然也不会缺少,昨日,王者荣耀公布了兔年限定皮肤的五位英雄,分别是:李信、瑶、小乔、马...
日期:01-13
AMD Zen4霄龙全线泄露:96核心2.6倍无情碾压Intel「amd四代霄龙」
先行登陆桌面市场后,AMD Zen4架构的下一站将是服务器和数据中心,代号Genoa,也就是霄龙9004系列,最多达96核心192线程。曝料大神MLIS现在公布了霄龙9004系列的完整型号、规格,甚至...
日期:10-18
去哪儿董事谈百度投资细节 未提及与谷歌合作_谷歌是百度的股东吗
百度收购私人控股公司去哪儿网(Qunar)多数股权(腾讯科技配图)(清雨)北京时间6月25日消息,据国外媒体报道,中国搜索巨头百度当前正大踏步进军旅游市场,同意以3.06亿美元的价格收购...
日期:07-30
苹果14pro max什么上市「显示屏分析师:苹果秋季iPhone 14 Pro Max生产量最多」
IT之家 8 月 23 日消息,根据最新爆料,苹果公司计划在 9 月 7 日星期三(预计北京时间 9 月 8 日凌晨)举行首次秋季发布会活动。该活动将重点发布 iPhone 14 系列机型和 Apple Wat...
日期:09-04
没流量?难转化?电商新战场,品牌商家的“爆款密码”来了
声明:本文来自于微信公众号 天下网商(ID:txws_txws),作者:杨越欣,授权转载发布。2022年对于电商行业而言,无疑是特别的一年。到2022年6月,我国短视频用户规模增至9.62亿,网络直播用...
日期:01-13
抖音千万网友点赞的武汉医生:发的水果舍不得吃,都送给了病人
  抗击疫情过程中,最辛苦的莫过于战斗在一线的医生、护士们。他们顶着危险日夜操劳,为挽救患者们的生命,不断付出努力。最近,抖音上一位身在武汉的医生,就获得了网友们近千万...
日期:09-23
孟羽童离职前月薪不足一万 准备继续读书「孟羽童个人资料学历」
5 月 11 日,孟羽童也在社交平台上发布了视频,回应了自己的离职原因,说自己接下来的计划是继续读书,申请研究生。根据孟羽童在视频中的介绍,她在格力电器的工作主要包括五个方面:行...
日期:05-12
信通院:9月国内市场手机出货量2092.2万部 同比下降2.4%
11月28日 消息:今日,中国信通院发布9月国内手机市场运行分析报告称,2022年9月,国内市场手机出货量2092.2万部,同比下降2.4%,其中,5G手机1510.4万部,同比下降0.1%,占同期手机出货量的...
日期:11-29
马斯克嘲讽苹果VisionPro头显 买它不如花20美元买包致幻蘑菇
马斯克在当地时间周四晚上发推,嘲讽苹果新推出的AR头戴设备Vision Pro。他发布了一张图片,图片左侧是Vision Pro,右侧是一个装有几个迷幻蘑菇的塑料袋,上面写着“通过化学方法改...
日期:06-09
小米最美手机Civi 2正式开售:2399元起_小米新款手机civi
全新的小米Civi 2已经在27日下午15点全渠道正式开售,8GB+128GB 2399元,8GB+256GB 2499元,12GB+256GB 2799元。小米Civi 2,主打“仿生双眸氛围人像”,前置升级为3200万专业主摄+ 3...
日期:09-28
中兴股票大涨「中兴股价涨停:今年将推支持ChatGPT的GPU服务器」
4月7日消息,今天下午中兴通讯股价一度涨停,截止收稿,上涨9.84%,最新市值1750亿元。消息面上,中兴通讯总裁徐子阳在业绩说明会上透露,公司年底推出支持ChatGPT的GPU服务器。4月6日,...
日期:04-07