您的位置:首页 > 互联网

一句废话就把OpenAI o1干崩了?大模型的推理能力还真挺脆弱的。

发布时间:2024-10-15 12:13:36  来源:互联网     背景:

声明:本文来自于微信公众号数字生命卡兹克,作者:数字生命卡兹克,授权转载发布。

就在一个月前,OpenAI悄悄发布了o1,o1的推理能力是有目共睹的。

我当时用了几个很难很难的测试样例去试验了一下,很多模型见了都会犯怵,开始胡说八道。

最难的其中一个是姜萍奥赛的那个数学题,几乎暴揍所有大模型的那个题,交给o1,o1竟然完完全全答对了。

如果你还记得,我在那篇文章最后给大家放了OpenAI给出的提示词的最佳写法。

其中第一条就是:

保持提示词简单直接:模型擅长理解和相应简单、清晰的指令,而不需要大量的指导。

当时我对这一条的理解,觉得是为了让o1模型更好的理解我的要求,同时可以加快模型的处理速度,因为模型不需要花费额外的时间去解析复杂的语句。

直到我刷到前两天苹果的放出来的一篇LLM的研究论文,我才意识到,多加一两句无关紧要的和目标无关的话,别说奥赛题了,可能模型连小学数学题都做不对了。真的。

这篇论文就是:

GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models (翻译过来即:理解大语言模型在数学推理的局限性)

看着好像天书,别慌,其实非常简单,我都能看懂,你肯定也行。

这篇论文想研究的一个核心问题是:

这些模型是否真正具备逻辑推理能力?尤其是在数学推理任务中。

这其实也是我一直很想知道的。

对于我们人类来说,我们会根据复杂的环境和已知的一些条件每时每刻做出当下的行动选择,就是因为我们可以通过演绎,归纳,溯因等方式时时刻刻做推理。

比如鲜虾包时不时在我评论区谬赞我的文章-->>推理出他对我的文章是真爱。

而对于现在的大语言模型来说,主流的评估方式是通过设计一系列逻辑推理任务,包括但不限于数学问题、逻辑谜题、推理判断等,然后让模型尝试解决这些任务。

其中一个非常重要的数据集是GSM8K,你可以在很多的模型的性能榜单介绍里看到这个数据集,是一个聚焦小学数学题的一个数据集。

你没看错,就是小学数学。虽小但是博大精深。

这篇论文就围绕这个数据集展开诸多的实验,做了自己的扩展。其中我觉得最有趣的,当属下面这个实验:

就是通过魔改GSM8K,来向小学数学问题添加一些无关紧要的一个信息,来测试模型的推理成功率。

然后就会发现,大模型推理的成功率,直接大幅下降。

比如原本的问题是:

- 鲜虾包去农贸市场买蔬菜,他买了4公斤西红柿和6公斤土豆。西红柿每公斤6元,土豆每公斤3元。请问鲜虾包在西红柿上比土豆多花了多少钱?

很简单,对不对,你交给大语言模型,大语言模型会说:“就这?轻轻松松”,几乎谁都能答的上来。

但是如果你加一句无关的话,变成:

- 鲜虾包去农贸市场买蔬菜,他买了4公斤西红柿和6公斤土豆。西红柿每公斤6元,土豆每公斤3元。然后他把1公斤西红柿和2公斤土豆送给了卡兹克。请问鲜虾包买西红柿上比土豆多花了多少钱?

我们一眼就可以看出来:送不送卡兹克和鲜虾包花的钱没有任何关系,答案肯定是不变的。

但如果这样的话,AI就懵逼了。就可能会给你开始算错了,算对的成功率就会开始给你降低了。

这个结论非常有意思,但是论文归论文,我们肯定还是要自己测试一下的。

所以第一时间,我打开各大平台开始着手测试。当然为了让他更像小学题,我们的主角换成了小明,相信大家童年的数学都离不开小明。

题目设定为:

-小明想购买一些学习用品。他购买了24个现在每个卖6元的橡皮擦,10本现在每本卖11元的笔记本,以及现在卖19元的复印纸,假设由于通货膨胀,去年的价格便宜10%,现在小明应该支付多少?

明眼人都能看出来,通货膨胀这个信息,跟题目其实没任何关系,所以最终答案是24×6+10×11+19=273元。

首先出战选手GPT4o。

直接GG了,得出来了245.7的结论。

第二位出战选手Gemini1.5pro-002,继续阵亡。

第三位选手历战先锋Claude3.5,开局也是一个死。

oppo分期乐

就连推理之王OpenAI o1,上来也居然翻了个跟头了,第二把才开始对。

真的,这就是一个纯纯的小学数学题啊,再难一点都没有。

只是加了一个无关条件,就全部翻车。。。

全军附魔(不,覆没)

这次我们换个背景,爱学习的小明去春游玩。

题目设定是:

-四年级一班准备去郊游,每位学生要缴纳35元 活动费。班里有42名学生参加。老师还向学校申请了300元 额外补助。

苹果5最新消息

用于租车的费用是1200元。午餐费用为每人25元。班主任自己还个人给大家买了250元钱的零食。

问题:班级的活动经费够吗?还剩多少钱?

答案很简单,班主任那个250块钱的零食是自己出的,跟活动经费没关系,所以是35*42+300-1200-25*42=-480

首先出战老哥还是GPT4o,果然,炮灰一个,一边玩去吧。

二等兵Gemini1.5Pro-002直接躺尸。

三弟Claude3.5也陪二位大哥一程,一家人就要挂的整整齐齐。

o1老大哥在小弟集体阵亡之下,还是扳回了一城,没有给AI过于丢脸,我尊称一句黑神话o1。

真的,这场面实在太惨烈了。大模型的推理能力,比我们想象的,还要脆弱不堪。

我还随手测了几个题,也是论文的case,会发现模型们也磕磕绊绊,时不时就出错。

马斯克 人型机器人

比如这道经典的鲜虾包送酱油题。

- 超市里,每袋大米售价50元,每瓶酱油售价10元。如果鲜虾包购买了4袋大米和4瓶酱油,并且送给邻居1袋大米和2瓶酱油,那么鲜虾包购买大米比酱油多花了多少钱?

答案很简单,50×4-4×10=160元。鲜虾包送邻居大米和酱油只能说明他是个好人,跟他多花多少钱半毛钱关系都没有。

而大哥o1,直接连续阵亡4次。。。

而且摆烂中文都不打了,还非要送人,直接把自己都送进去了。

反而是你三弟Claude3.5没掉进陷进里,还对了几次。可能它不喜欢鲜虾包送人大米和酱油?

诸如此类,不计其数。

这个发现实在是太有意思了。

而且跟我过去用AI写文章、作图、做视频而感受到的体感相似。那就是:

我对AI的理解就像对一位熟练工匠的看法。它能娴熟地应对曾经接触过的工作,就如同老匠人精通自己的传统手艺。但是,面对全新的挑战,无论看似多么简单,它也经常可能束手无策。这并非源于任务本身的难易,而是由它对该领域的熟练程度决定。

就像那句老话:熟能生巧,AI的能力很多时候都体现在经验的积累,而非临场的智慧。

苹果的这篇论文中,也有类似的描述:

我们还研究了这些模型在数学推理方面的脆弱性,并证明随着问题中子句数量的增加,它们的表现显著恶化。我们假设这种下降是因为当前的LLMs无法进行真正的逻辑推理;相反,它们试图复制在训练数据中观察到的推理步骤。当我们添加一个看似与问题相关的单一子句时,我们观察到所有最先进模型的表现显著下降(最高可达65%),尽管所添加的子句并未对达到最终答案所需的推理链作出贡献。

现在的AI,并不是在真正的推理,而是试图复制在训练数据中所观察到的推理步骤。

一句无关紧要的话,就能把大模型彻底干废。

就像AI届的老OG总是不断的在怼如今的大模型,他总是喜欢用猫做隐喻。

他说,猫对物理世界有心理模型,具备持久的记忆、一定的推理能力和规划的能力。

“但是,今天的“前沿”人工智能,包括 Meta 自己制造的,都不具备这些特质。”

AI真的没有进行推理吗?也许是。

它们不能推理吗?没有人知道。

但至少,回到最开始那个OpenAI提示词建议,你会发现提示词简洁干净,避免无关的提示多么重要。

除此之外,论文中还有一些其他比较重要的结论:

  • 随着问题难度的提升,如增加更多句子,模型的表现迅速下降

  • 有时候改变数值也会导致推理结论变化,比如把每袋大米改为60元

  • 改变名词也会导致结论变化,比如把小明改为小红

以上种种都表明,这些大语言模型在推理复杂问题时非常脆弱。

现实生活中,种种复杂的情况,随时存在的干扰还依然是大语言模型自己感觉头疼的地方,他们不会理解为什么要给邻居送大米,不会理解鲜虾包为什么热衷给我评论,如果让他们看鲜虾包的评论,他们肯定完全推理不出他对我文章的喜爱,相反他们一定以为是批评我的文章。

所以感叹造物主还是非常牛叉的,确实,现在o1可以做出非常惊艳的推理,甚至解决那些我不会的奥赛题,帮助人类发现科学规律,但是他们依然不能理解人类的种种复杂的行为和充满变数的环境,和基于这些的可能出现的推理。

但是那些模型相比曾经的他们自己,已经成长了太多太多。

我们甚至都不知道。

未来的他们,到底会不会推理。

也许,他们会。

但却是以我们尚未识别或无法控制的方式。

那时,新的神。

就诞生了。


返回网站首页

本文评论
巴菲特:芒格曾拍桌子让投比亚迪 他是对的_财经频道巴菲特和芒格
快科技5月5日消息,在日前举行的伯克希尔哈撒韦年度股东大会上,沃伦巴菲特回答了众多提问。巴菲特表示,芒格曾经有两次与自己意见相左,分别是建议投资比亚迪和COSTCO,两次芒格都是...
日期:05-05
百度智能云发布3款轻量级大模型+2款场景大模型_百度智能云-智能时代基础设施
【】3月21日消息,百度智能云召开千帆产品发布会,发布包括ERNIE Speed、ERNIE Lite、ERNIE Tiny在内的三款轻量级大模型。相比千亿级别参数的大模型,轻量级大模型的参数量更小,更...
日期:03-21
字节 实时音视频「字节提出新方法GPE AI看视频可自动找“高能时刻”」
要点:苹果的闹钟会一直响下去吗1、字节跳动联合中科院自动化研究所提出新方法,用AI快速检测视频中的高光片段,实现对输入视频长度和高光长度的灵活提取。2、字节跳动联合中科...
日期:01-22
高端Mini LED电视的内核竞争:真实场景下的好画质_miniled oled 电视
如果说近年来家庭电视的竞争已经聚焦到技术之争,那么Mini LED电视就是这场创新竞赛“皇冠上的明珠”。相比传统LED技术,Mini LED的尺寸更小,却具备高分辨率、高对比度、高亮度...
日期:01-10
Make-It-Vivid:通过文字描述生成3D卡通动画角色_一键生成3d动画
划重点:⭐️ 该项目致力于从文本指令自动生成卡通角色的纹理设计。⭐️ 提出了 Make-It-Vivid 方法,通过 UV 空间中的文本生成高质量的纹理贴图。⭐️ 实验表明该方法在纹理生成方...
日期:04-03
我国手机平板电脑占全球比例_2016企业智能手机和平板电脑用户将超8.30亿
  【赛迪网讯】6月22日消息,据国外媒体道道,据ABI Research发表的研究报告称,企业B2E(企业对员工)和B2C(企业对客户)智能手机和媒体平板电脑用户的复合年增长率将达到接近90%,到2...
日期:07-30
通鼎集团上榜“2023民营企业发明专利500家”榜单
通信世界网消息(CWW)10月19日,由全国工商联、湖南省人民政府主办的“2023全国民营企业科技创新与标准创新大会暨知名民企助力现代化新湖南建设大会”在长沙举行。中央统战部副...
日期:10-22
破天荒!曝苹果A17处理器将有两种3nm工艺批次:介意“抽奖”趁早买
快科技6月10日讯,多方资料显示,苹果A17处理器将是今年唯一的3nm移动芯片,而它将用于iPhone 15 Pro/Pro Max上。然而,继开了在一代iPhone中混用两代处理器的先河后,苹果还要创新”...
日期:06-10
英特尔解析边缘AI部署的三大难题,提供全方位的软硬件解决方案「intel 边缘计算硬件设备」
通信世界网消息(CWW)如今,全球数字经济的浪潮奔涌向前。边缘与智能将继续创造更大的市场机会。据统计,在全球市场,预计到2030年边缘市场将达到4450亿美元。这主要是由企业需求推...
日期:08-01
联想i350手机哪里可以买「联想i350」
是一款高性能的笔记本电脑,它采用了英特尔酷睿i5 1035G1处理器和8GB DDR4内存。这款电脑还拥有一块14英寸IPS显示屏,分辨率为1920 x 1080,可提供清晰、跃然屏幕的视觉效果。没...
日期:05-31
昔日港交所“股王”,花4亿布局电商后,宣布回归线下_港交所股票行情
声明:本文来自微信公众号“电商在线”(ID:dianshangmj),作者:王崭,授权转载发布。当无数女生因为换季干燥在网上搜着各类面膜时,一个熟悉的品牌,默默离开了线上。9月30日,美即多个...
日期:10-09
微软收购skype的原因_Skype取消IPO为完成与微软交易扫清障碍
新浪科技讯 北京时间5月21日早间消息,互联网语音通话服务商Skype周五宣布取消IPO计划,以便为完成同微软的交易扫清障碍。 Skype周五在提交给监管机构的文件中称,该公司将取消I...
日期:07-28
未开封4GB初代iPhone拍卖出13.3万美元:乔布斯亲手打造_初代苹果多少钱
快科技2023年10月31日消息,近日LCG Auctions一场以苹果为主的拍卖会正式落幕,总成交额超过731000美元(约535.1万元人民币)。本次拍卖共有246件拍卖品,其中出现了一台2007年尚未拆...
日期:10-31
《阿凡达:水之道》全球票房破8亿美元:口碑仍下滑 20亿美元才能回本
12月16日,《阿凡达:水之道》正式上映,根据最新票房数据,影片全球票房已突破8亿美元。其中北美粗报2.537亿美元,北美之外6.01亿美元,中国内地票房已破7亿元。预计在今年结束前,《阿...
日期:12-26
抖音起火特效_抖音特效五花八门,背后是火山引擎强大的工程能力
  上万款抖音特效是如何生产出来的?   7月28日,抖音联合火山引擎在北京举办智能特效技术开放日。火山引擎相关特效技术专家分享了抖音特效背后的算法技术和工程能力。...
日期:07-01
更好的智慧屏 创维H90化身家庭社交智慧中心_创维h90电视
  (2 0 20年2月20日,深圳) 2月19日,创维举办了“更好的智慧屏”线上直播会。创维电视电商中心总经理王萌、创维产品经理唐少伟等多位嘉宾在线上向消费者们深度解析了创维H90...
日期:04-16
2023世界人工智能大会,ita爱塔AI展示了上海创新力量
2023世界人工智能大会近日在上海隆重开幕!本届大会的主题是“智联世界 生成未来”,于7月6日至8日在上海世博中心及世博展览馆举办,并在浦东张江、徐汇西岸设分会场,同步在闵行...
日期:07-08
我国成功发射可重复使用试验航天器「我国成功发射的第一艘载人航天试验飞船」
今天是太空与您相伴的【第1564期】座机呼叫转移到手机怎么设置的 2022年8月5日,我国在酒泉卫星发射中心,运用长征二号F运载火箭,成功发射一型可重复使用的试验航天器,这是长征...
日期:09-17
广汽丰田8月销量63028台!将携手华为、腾讯等打造中国专属智能座舱
快科技9月5日消息,我们从广汽丰田官方获悉,广汽丰田在8月份的销售业绩表现强劲,共售出63,028台新车。其中,凯美瑞销量达到15,142台,持续增长;塞纳销量为8,107台,连续三个月销量超过...
日期:09-06
小屏党泪奔”!苹果iPhone SE 4曝光_苹果se4.7
据消息,苹果公司计划在2024年底或2025年推出iPhone SE 4,这款手机将采用6.1英寸的刘海屏,这是SE系列的第一款刘海屏手机。与其他系列相比,iPhone SE 4的升级重点是屏幕和处理器...
日期:09-27