您的位置:首页 > 互联网

简单数学问题稍作改动就会答错-苹果研究人员质疑AI的推理能力_数学问题巧解

发布时间:2024-10-12 17:15:56  来源:互联网     背景:

10 月 12 日消息,近年来,人工智能(AI)在各个领域取得了显著的进展,其中大型语言模型(LLM)能够生成人类水平的文本,甚至在某些任务上超越人类的表现。然而,研究人员对 LLM 的推理能力提出了质疑,他们发现这些模型在解决简单的数学问题时,只要稍加改动,就会犯错误,这表明它们可能并不具备真正的逻辑推理能力。

周四,苹果公司的一组研究人员发布了一篇名为《理解大型语言模型中数学推理的局限性》的论文,揭示 LLM 在解决数学问题时容易受到干扰。注意到,研究人员通过对数学问题的微小改动,例如添加无关的信息,来测试 LLM 的推理能力。结果发现,这些模型在面对这样的变化时,其表现急剧下降。

例如,当研究人员给出一个简单的数学问题:“奥利弗星期五摘了 44 个奇异果,星期六摘了 58 个奇异果。星期日,他摘的奇异果是星期五的两倍。奥利弗一共摘了多少个奇异果?”时,LLM 能够正确地计算出答案。然而,当研究人员添加一个无关的细节,“星期日,他摘的奇异果是星期五的两倍,其中 5 个比平均小”时,LLM 的回答却出现了错误。例如,GPT-o1-mini 的回答是:“... 星期日,其中 5 个奇异果比平均小。我们需要从星期日的总数中减去它们:88(星期日的奇异果) - 5(较小的奇异果) = 83 个奇异果。”

一个简单的数学题很少有人做对

上面只是一个简单的例子,研究人员修改了数百个问题,几乎所有问题都导致模型的回答成功率大幅下降。

研究人员认为,这种现象表明 LLM 并没有真正理解数学问题,而是仅仅根据训练数据中的模式进行预测。但一旦需要真正的“推理”,例如是否计算小的奇异果,它们就会产生奇怪的、不合常理的结果。

这一发现对 AI 的发展具有重要的启示。虽然 LLM 在许多领域表现出色,但其推理能力仍然存在局限性。未来,研究人员需要进一步探索如何提高 LLM 的推理能力,使其能够更好地理解和解决复杂的问题。(远洋)

纵情七夕 荣耀在线观看

全球彩电市场最新消息

数学简单小问题

三星 Galaxy S6 edge


返回网站首页

本文评论
酷狗音乐会不会下架「酷狗音乐回应下架刀郎歌曲:消息不实 将提起诉讼」
8月11日 消息:近期,刀郎的新歌《罗刹海市》在全网引起了极大的关注和热议,播放量更是超过了80亿,跻身于世界前列。然而,有人在短视频平台上爆料称,刀郎的音乐被酷狗音乐下架。对...
日期:08-11
百度智能云企业知识管理平台“甄知”通过信通院大模型专项评估
3月8日 消息:百度宣布,百度智能云旗下的企业知识管理平台 “甄知” 成为行业首个通过中国信通院基于大模型的知识管理专项评估的产品。甄知获得了优秀级(4+ 级)的评分,也是该次...
日期:03-08
2023人工智能计算大会AICC将于11月29日举行,精彩看点前瞻_人工智能技术大会2021
11月29日,2023人工智能计算大会AICC即将在北京启幕。本届AICC以“智算力就是创新力”为主题,设立1场主论坛、6场主题论坛、1500㎡实景AI创新科技展,展示智能计算时代最前沿的技...
日期:11-23
天娱数科子公司更名为“智境云创” ,引爆“AI×MR×空间计算”乘数效应
2023 年注定是科技创新史上浓墨重彩的一年。大模型、AIGC、空间计算、MR等前沿技术在软、硬件层面推动着海量明星产品与应用层出不穷,让世界不断感知着新时代的降临。“AI×M...
日期:01-20
苹果秋季发布会在9月几号「苹果宣布秋季发布会将于9月7日举行」
vivonex折叠屏  讯 北京时间8月25日凌晨消息,苹果今日宣布,将于太平洋时间9月7日星期三上午10:00(北京时间9月8日凌晨1点)举办一场特别活动。该活动将在加利福尼亚州库比蒂诺Ap...
日期:09-05
“我是女皇 请让道!”上热搜 网友:见证新梗诞生_我是女皇不落泪
3月21日,北京故宫景区内发生了一起引人注目的事件。当时,一位女士在故宫已闭馆的时间段内试图强行进入景区,她的行为引起了工作人员的高度关注。面对工作人员,这位女士态度强硬,...
日期:03-22
通信及网络 ic芯片 美光存储「涉及芯片堆叠技术 美国PTAB驳回美光专利无效请求」
近日,美国非执业实体(NPE)Longhorn IP发布消息称,美国专利审判和上诉委员会于2023年6月14日驳回了美光对Katana Silicon Technologies(KST)专利无效的请求。据悉,美光是一家美国计...
日期:06-19
雷军微博宣传“小米价值观” 网友不买账:不管管MIUI吗?_雷军对小米的战略规划
  【CNMO新闻】近日,小米举办核心干部大会,公布了新十年的奋斗目标和科技战略,并发布了小米价值观的八条诠释。和往常一样,作为CEO的雷军不遗余力地在微博上多次为“小米价值...
日期:09-28
十代酷睿降价「Intel 13代酷睿国行价格公布!有的涨400、有的降100」
Intel今天正式发布了Raptor Lake 13代酷睿处理器、Z790主板芯片组,国行价格也已公开。13代酷睿首发还是六款K、KF系列无锁频版本,具体价格如下——- i5-13600KF:2499元- i5-13600...
日期:10-05
动物园黑熊咬人 完整视频「游客吐槽动物园出现断臂黑熊 回应:来这里时已经如此」
5月25日消息,据媒体报道,近日在江苏徐州,一女子发视频吐槽汉城公园内出现断臂黑熊,且其他动物均状态很差。该女子称:当时自己购买15元门票进入后发现园区内环境脏乱差,狐狸和狼等...
日期:05-25
元宇宙也有地产泡沫?炒房客这下血本无归了「元宇宙值得投资吗」
声明:本文来自微信公众号“三易生活”(ID:IT-3eLife),作者:三易菌,授权转载发布。作为区块链的衍生品,元宇宙房产自然也与NFT和加密货币“同此凉热”。9月1日,2022世界人工智能大会...
日期:09-08
500万适配,市占率、增速双第一!2023统信UOS生态大会重磅连连_统信软件生态大会
(原标题:500万适配,市占率、增速双第一!2023统信UOS生态大会重磅连连) [中国,北京,2023年12月20日]  以“进化·向未来”为主题...
日期:12-26
腾讯被裁T13 大佬黄希彤曾发明 10 余项专利_腾讯副总裁黄海
3月13日 消息:据报道,腾讯首个Web前端专家黄希彤,47岁工龄15年,被曝遭腾讯裁员。据悉,腾讯著名的404寻亲平台、QQ邮箱隐藏链接均出自黄希彤之手。twitter怎么认证蓝v针对网友们...
日期:03-13
华为碎屏险价格不一样「79元起!华为碎屏无忧服务上线:屏幕碎了5折换 支持27款机型」
11月17日消息,今日,华为商城官方宣布华为碎屏无忧服务上线,售价79元起,购买该服务后,手机不慎碎屏可享5折优惠换屏。据了解,在该服务生效期间,手机因意外碰撞、跌落等原因造成屏幕...
日期:11-21
天猫携手双莲搞事情:美出底气,喝它!
  ​想随时任性?得有颜值来撑!新年伊始,天猫给你任性的实力!1月2日,天猫APP每周大牌日携手泰国40年历史国民品牌双莲一起搞事情,用双莲燕窝给全球万千的爱美小姐姐送上美...
日期:06-02
阿里云东京奥运会云直播响遍全球_移动云携手咪咕,助力东京实现“云上奥运”
  东京奥运会受疫情影响采用现场无观众方式进行赛事。然而,这一切在数字化技术迅速发展的今天,却并未对国内的体育迷们带来过多影响。   奥运期间,中国移动咪咕推出了全量...
日期:07-17
阿里健康中期业绩:收入115亿元 利润1.6亿元「阿里健康盈利能力分析」
11月28日消息,阿里健康发布截至2022年9月30日止六个月中期业绩公告。报告期内,阿里健康收入达人民币115亿元,同比增长22.9%;毛利23亿元。值得注意的是,阿里健康在报告期内实现正...
日期:12-01
HeyGen发布最新功能演示 可通过文字和AI进行视频聊天
1月25日 消息:HeyGen又发布新功能,你现在可以和AI进行视频聊天了。这一功能让用户可以通过文字和一个具象的AI形象进行实时视频对话。这意味着用户可以和一个虚拟的人物进行...
日期:01-26
助华为突破5G的芯片大佬陈正坤,现在怎样了「陈正坤书法」
我国的5G技术在国际舞台上已经取得了显著的成就,但美对华为迅速崛起表示担忧,因为他们担心华为的发展可能会对美的地位构成影响。以维护国家安全为借口,美对华为实施了一系列限...
日期:09-09
这届双十一,平台和品牌们计划怎么卖?_双十一的销售
  文 / 梁又匀;责编 /;高梦阳;编辑;/ 梁又匀  距离11月11日不足一个月,从前期的招商大会,到物流扩招,再到售后保价、维权承诺,各大平台早已摩拳擦掌。  最新消息显示,罗永...
日期:10-18