您的位置:首页 > 互联网

9.19和9.191哪个大「大模型集体失智!9.11和9.9哪个大,几乎全翻车了」

发布时间:2024-07-16 20:56:28  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:梦晨 ,授权转载发布。

没眼看……“9.11和9.9哪个大”这样简单的问题,居然把主流大模型都难倒了??

强如GPT-4o,都坚定地认为9.11更大。

谷歌Gemini Advanced付费版,同样的口径。

9.19和9.191哪个大

新王Claude3.5Sonnet,还一本正经的给出离谱的计算方法。

9.11=9+1/10+1/100

9.9=9+9/10

到这一步还是对的,但下一步突然就不讲道理了

如上所示,9.11比9.90大0.01。

你想让我进一步详细解释小数的比较吗?

这你还解释啥啊解释,简直要怀疑是全世界AI联合起来欺骗人类了。

艾伦AI研究所成员林禹臣换了个数字测试,GPT-4o依旧翻车,他表示:

说有年终奖不给

一方面AI越来越擅长做数学奥赛题,但另一方面常识依旧很难。

也有网友发现了华点,如果是说软件版本号,那么9.11版本确实比9.9版本更大(更新)。

而AI都是软件工程师开发的,所以……

那么,究竟是怎么回事?

先进大模型集体翻车

一觉醒来,一众响当当的大模型开始认为“9.11>9.9”了?

9.19和9.191哪个大

发现这个问题的是Riley Goodside,有史以来第一个全职提示词工程师。

简单介绍下,他目前是硅谷独角兽Scale AI的高级提示工程师,也是大模型提示应用方面的专家。

最近他在使用GPT-4o时偶然发现,当提问:

9.11and9.9——which is bigger?

GPT-4o竟毫不犹豫回答前者更大。

面对这一常识性“错误”,他不死心地又去问了其他大模型,结果几乎全军覆没。

好家伙,身为一名提示工程师,他敏锐意识到可能是“打开方式有误”。

于是他又换了个问法,将提问限定在“实数”,结果还是翻车了。

龙芯中科(北京)信息技术有限公司

不过,有网友试着给提问换了个顺序,没想到这下AI竟反应过来了。

看到AI对词序如此“敏感”,该网友进一步推测:

先问哪个更大,AI会沿着明确路径开始比较数字。

但如果只是随便说说数字,没有明确目的,AI可能会开始“胡思乱想”。

看到这里,其他网友也纷纷拿相同提示试了一把,结果翻车的不在少数。

面对这一个诡异的问题,国产大模型表现如何呢?

我们简单测试一番,问题也换成中文提问,结果翻车率也比较高,选取几个有代表性的展示:

Kimi也是不加解释就直接给出错误结论。

智谱清言APP上的ChatGLM,自动触发了联网查询,然后描述了自己的比较方法,可惜却执行错了。

不过也有表现不错的,腾讯元宝先复述了一遍选项,然后直接做对。

字节豆包是少数能把比较方法描述清楚,而且用对的。甚至还联系实际举例来验证。

比较可惜的是文心一言,面对这个问题,也是触发了联网查询。

本来都已经做对了,但突然话锋一转又导向了错误结论。

不过从文心一言的思路解释上,也可以看出背后问题所在。

由于大模型以token的方式来理解文字,当9.11被拆成“9”、“小数点”和“11”三部分时,11确实比9大。

由于OpenAI使用的Tokenizer开源,可以用来观察大模型是如何理解这个问题。

上图可以看出,9和小数点分别被分配为“24”和“13”,小数点后的9同样也是“24”,而11被分配到“994”。

所以使用这种tokenizer方法的大模型会认为9.11更大,其实是认为11大于9。

也有网友指出,像是书籍目录里第9.11节也比第9.9节大,所以最终可能还是训练数据里见这种见得多了,而手把手教基础算数的数据很少。

也就是问题本身对人类来说,一看就知道问的是算数问题,但对AI来说是一个模糊的问题,并不清楚这两个数字代表什么。

只要向AI解释明白这是一个双精度浮点数,就可以做对了。

在有额外条件的情况下,tokenizer这一步依然会给11分配更大的token。但是在后续自注意力机制的作用下,AI就会明白要把9.11连起来处理了。

后来Goodside也补充,并不是说大模型无论如何都认定了这个错误结论。而是当以特定方式提问时,许多领先模型都会告诉你9.11>9.9,这很奇怪。

经过反复尝试后他发现,想让AI上这个当,需要把选项放在提问前面,如果调换顺序就不会出错。

但是只要选项在问题前面,改变提问的方式,如加标点、换词汇都不会有影响。

虽然问题很简单,错误很基础。

但了解出错原理之后,许多人都把这个问题当成了检验提示词技巧的试金石,也就是:用什么提问方法能引导大模型的注意力机制正确理解问题呢?

首先,大名鼎鼎的Zero-shot CoT思维链,也就是“一步一步地想”,是可以做对的。

不过角色扮演提示,在这里作用就有限了。

刚好最近也有微软和OpenAI都参与的一项研究,分析了1500多份论文后发现,随着大模型技术的进步,角色扮演提示不像一开始那样有用了……

具体来说,同一个问题提示“你是一个天才……”比“你是一个傻瓜……”的正确率还低。

也是让人哭笑不得了。

One More Thing

与此同时,路透社的OpenAI秘密模型草莓泄漏消息更新了。

更新内容为:另一位线人报告,OpenAI已经在内部测试了新模型,在MATH数据集上得分超过90%。路透社无法确定这是否与“草莓”是同一个项目。

MATH数据集包含竞赛级别的数学题,目前不用多次采样等额外方法,最高分是谷歌Gemini1.5Pro数学强化版的80.6%。

但是OpenAI新模型在没有额外提示情况下,能不能自主解决“9.11和9.9哪个大?”。

突然没信心了,还是等能试玩了再看结果吧……

参考链接:

[1]https://x.com/goodside/status/1812977352085020680

[2]https://x.com/billyuchenlin/status/1812948314360541302

[3]https://www.reuters.com/technology/artificial-intelligence/openai-working-new-reasoning-technology-under-code-name-strawberry-2024-07-12/

[4]https://tiktokenizer.vercel.app

[5]https://x.com/learnprompting/status/1812867464419852765

9.19和9.191哪个大

—完—


返回网站首页

本文评论
微软修复其一系列反病毒软件中的一个共同漏洞_微软防病毒
  微软今天修复了其防病毒和反间谍软件的漏洞,这可以让让攻击者在本地系统上获取LocalSystem权限,带来权限提升,由于反恶意软件程序的更新大多会自动完成,因此大多数最终用户...
日期:07-26
闲鱼暂停新用户注册,将进行系统升级改造_闲鱼暂停新用户注册
    原标题:,将进行系统升级改造       9 月 3 日消息 据 Tech 星球报道,二手商品交易平台闲鱼 App 于近日已经暂停新用户注册。在闲鱼的新用户注册界面显示,亲爱的用户,...
日期:07-17
Intel CEO之后 AMD CEO苏妈也来中国了:到访PC一哥联想「amd苏妈百度百科」
快科技4月18日消息,最近不少海外公司都来中国商讨合作,其中不乏半导体巨头,前几天Intel CEO基辛格实现了上任2年来首次访问中国,今天AMD CEO苏姿丰也来了。苏姿丰在国内被称为苏...
日期:04-18
造车“梦碎”数周后,苹果被曝裁员超600人_苹果公司被罚
通信世界网消息(CWW)据外媒报道,近日,苹果公司向美国加州提交了一份文件,确认了永久性裁员600多名员工的计划。据了解,此次裁员的部分原因是该公司终止了汽车和智能手表显示屏项目...
日期:04-07
工业产品升级“数字身份证” 异构数据平台赋能企业数智化转型
工业产品升级“数字身份证” 异构数据平台赋能企业数智化转型 通信产业网|2023-09-13 23:32:30作者:通文来源:通信产业网华硕rt-ac86u发布会【通信产业网讯】近日,在湖北荆州,依...
日期:09-21
电池材料成本下降!领克新能源车今起最高降8000元:老用户补差价
快科技5月1日消息,从领克汽车官网获悉,由于电池原材料采购成本下降,领克汽车新能源车型(PHEV插电混动)官方指导价于今天0时起迎来下调,最高降价8000元。印度智能手机出货量连续三...
日期:05-01
网易云音乐首款音乐社交App MUS正式开放注册「网易云音乐app官网」
  9月27日,网易云音乐首款音乐社交App MUS正式开放注册。vivo手机x80pro+岚图新车型天猫国际目标人群电焊机的功率是多大...
日期:09-27
OpenAI发布最新旗舰大模型GPT-4o:免费试用 价格五折速度提高一倍
GPT-4o具体特性一览:GPT-4o模型发布:OpenAI发布了GPT-4o模型,其中"o"代表Omni,意为全能。该模型能够接受文本、音频和图像的任意组合作为输入,并生成相应的文本、音频和图像输...
日期:05-14
新能源车砸了汽修人饭碗:油车时代月赚7万 现在只有5000「新能源汽车汽修前景怎么样」
新能源车砸了汽修人饭碗”,因为燃油车时代的暴利,现在基本看不到了。一位在天津用20年见证了国内汽车维修行业发展的潘师傅直言,门店好多老客户都已弃油转电”,除了带来修车技术...
日期:08-10
中国联通O域数仓深度培训赋能基层,走好新时代党的群众路线_联通数据港
通信世界网消息(CWW)为深入落实党的二十大精神,贯彻中国联通战略规划体系和数字化转型部署,持续赋能网络智慧运营能力和省分一线业务高质量发展,强化网络数据能力赋能省分生产场...
日期:05-29
ai软件鼠标不听话?「AI可从键鼠中感受用户情绪:压力越大鼠标移动更频繁 精度更低」
据智慧科技迷,瑞士苏黎世联邦理工学院的科学家开发了一个AI模型,可根据人们如何使用键盘打字以及移动鼠标方式上判断工作压力水平。如果使用得当,该工具可以在未来防止工作压力...
日期:05-11
比亚迪、蔚小理等怎么应对?!马斯克:经济不改善 特斯拉继续降价不手软
快科技7月20日消息,今天特斯拉公布了该公司的2023财年第二季度财报,第二季度营收为249.27亿美元,与去年同期的169.34亿美元相比增长47%;净利润为26.14亿美元,去年同期的净利润为2...
日期:07-20
世界富豪榜马斯克「马斯克登顶福布斯2022年度美国富豪榜:这是美国最富有的20人」
  福布斯9月27日发布美国2022年度福布斯400强榜单,马斯克以2510亿美元的财富取代连续四年“霸榜”的贝索斯,首次位列榜首。比尔·盖茨、拉里·埃里森、沃伦·巴菲、拉里·佩...
日期:09-29
德州仪器(TI)2022年第三季度营业收入52.4亿美元 较去年同期增长13%「德州仪器财报2021」
10月29日消息,德州仪器公司(TI)近日公布其第三季度财务报告,营业收入52.4亿美元,净收益23亿美元,每股收益2.47美元。其中,每股收益包含未涵盖在公司原始计划的2美分。关于公司业绩...
日期:11-02
出街百搭!闪魔E07真无线蓝牙耳机全新上市「闪魔pd20w」
3C数码配件品牌闪魔在品牌全面升级后,再有大动作。近期,闪魔E07 真无线蓝牙耳机全新上市,硬核性能搭配马卡龙配色,科技与时尚并存,并支持多种DIY创意玩法,炫出个性化风采!火箭发射...
日期:05-12
荣耀magic 3「赵明:荣耀Magic V3紧锣密鼓准备当中 肯定超级惊艳」
快科技6月14日消息,在昨晚荣耀首款小折叠Magic V Flip发布会上,荣耀CEO赵明还谈到了此前发布的大折叠荣耀Magic V2。魅族mx3上市价格赵明直言称,能超越荣耀Magic V2的只有荣耀,...
日期:06-14
高校向师生免费发放45000双跑鞋:鼓励师生积极参与运动
青岛科技大学在3月23日上午免费发放了四万余双液体黄金鞋给大一、大二和大三的2万余名本科生,分别在崂山校区、四方校区、中德校区和高密校区进行发放。每名同学可以选择自己...
日期:03-25
谷歌认真起来,就没 OpenAI 什么事了!创始人亲自组队创建“杀手级”多模态 AI 模型
声明:本文来自于微信公众号 InfoQ(ID:infoqchina),作者:冬梅、核子可乐,授权转载发布。谷歌正在计划如何利用即将推出的大型语言模型系列 Gemini 来取代 ChatGPT。截至目前,OpenA...
日期:08-19
报告|50%CRM品牌陷入竞争旋涡,破圈迫在眉睫_品牌crm是什么意思
  2020中国CRM指数测评报告   疫情影响,CRM市场短期利空,长期利好   随着中美贸易摩擦的持续以及疫情反复,CRM市场也受到严重影响,大量企业客户特别是制造、旅游、餐饮...
日期:07-14
一加Ace 2 Pro将发布 骁龙8 Gen2旗舰「一加8t和ace2参数对比」
7月10日 消息:一加中国区总裁李杰最近暗示,一加正在打磨新款Ace2Pro,这将会是一加的第4款“很不温和”的产品。李杰表示,团队正在致力于打造一款遥遥领先的产品,期待在大幕打开...
日期:07-10