您的位置:首页 > 互联网

大模型智障检测+1:Strawberry有几个r纷纷数不清,最新最强Llama3.1也傻了_智障达模型

发布时间:2024-07-25 18:15:37  来源:互联网     背景:

声明:本文来自于微信公众号 量子位,作者:梦晨 一水,授权转载发布。

继分不清9.11和9.9哪个大以后,大模型又“集体失智”了!

智障达模型

数不对单词“Strawberry”中有几个“r”,再次引起一片讨论。

GPT-4o不仅错了还很自信。

刚出炉的Llama-3.1405B,倒是能在验证中发现问题并改正。

比较离谱的是Claude3.5Sonnet,还越改越错了。

说起来这并不是最新发现的问题,只是最近新模型接连发布,非常热闹。

一个个号称自己数学涨多少分,大家就再次拿出这个问题来试验,结果很是失望。

在众多相关讨论的帖子中,还翻出一条马斯克对此现象的评论:

好吧,也许AGI比我想象的还要更远。

路遇失智AI,拼尽全力终于教会

有人发现,即使使用Few-Shot CoT,也就是“一步一步地想”大法附加一个人类操作示例,ChatGPT依然学不会:

倒是把r出现的位置都标成1,其他标成0,问题的难度下降了,但是数“1”依旧不擅长。

为了教会大模型数r,全球网友脑洞大开,开发出各种奇奇怪怪的提示词技巧。

比如让ChatGPT使用漫画《死亡笔记中》高智商角色“L”可能使用的方法。

ChatGPT想出的方法倒是也很朴素,就是分别把每个字母写出来再一个一个数并记录位置,总之终于答对了。

有Claude玩家写了整整3682个token的提示词,方法来自DeepMind的Self-Discover论文,可以说是连夜把论文给复现了。

整个方法分为两大阶段:先针对特定任务让AI自我发现推理步骤,第二阶段再具体执行。

发现推理步骤的方法简单概括就是,不光要会抽象的思维方法,也要具体问题具体分析。

这套方法下,Claude给出的答案也非常复杂。

作者补充,花这么大力气解决“数r问题”其实并不真正实用,只是在尝试复现论文方法时偶然测试到了,希望能找出一个能用来回答所有问题的通用提示词。

2020款macbook pro 13.3使用技巧

不过很可惜,这位网友目前还没公布完整的提示词。

还有人想到更深一层,如果要计算文档中straberry出现多少次怎么办?

他的方法是让AI想象有一个从0开始的内存计数器,每次遇到这个单词就往上加。

有人评论这种方法就像在用英语编程。

也有AI可以一次做对

那么究竟有没有大模型,可以不靠额外提示词直接答对呢?

其实不久之前有网友报告,ChatGPT是有小概率能直接答对的,只不过不常见。

谷歌Gemini 大概有三分之二的概率能答对,打开“草稿”就能发现,默认每个问题回答三次,两次对一次错。

至于国内选手,在提问方式统一、每个模型只给一次尝试机会的测试下,上次能正确判断数字大小的,这次同样稳定发挥。

字节豆包给出了正确回答,还猜测用户问这个问题是要学习单词拼写吗?

智谱清言的ChatGLM,自动触发了代码模式,直接给出正确答案“3”。

腾讯元宝像解数学题一样列方程给出了正确答案(虽然貌似没有必要)。

文心一言4.0收费版则更加详细,也是先正确理解了意图,然后掰指头挨个找出了全部的“r”。

不过有意思的是,在同一种方法下,文心一言APP中的免费版文心3.5掰指头也能数错。

讯飞星火也通过找出“r”所在位置给出了正确回答。

还是token的锅

虽然“数r”和“9.11与9.9哪个大”,看似一个是数字问题一个是字母问题,但对于大模型来说,都是token问题。

单个字符对大模型来说意义有限,使用GPT系列的Llama系列的tokenizer就会发现,20个字符的问题,在不同AI眼中是10-13个token。

其中相同之处在于,strawberry被拆成了st-,raw,-berry三个部分来理解。

换一个思路用特殊字符ⓢⓣⓡⓐⓦⓑⓔⓡⓡⓨ来提问,每一个字符对应的token也就会分开了。

面对这种问题,其实最简单的方法就是像智谱清言一样,调用代码来解决了。

可以看到,ChatGPT直接用Python语言字符串的count函数,就能简单搞定。

刚刚创业开了所学校的大神卡帕西认为,关键在于需要让AI知道自己能力的边界,才能主动去调用工具。

至于教给大模型判断自己知道不知道的方法,Meta在LLama3.1论文中也有所涉及。

最后正如网友所说,希望OpenAI等大模型公司,都能在下个版本中解决这个问题。

GPT Tokenizer试玩

https://gpt-tokenizer.dev

Llama Tokenizer试玩

https://belladoreai.github.io/llama-tokenizer-js/example-demo/build/


返回网站首页

本文评论
考驾照科目一作弊怎么处罚「女子考科目一作弊 双腿写满答案 后果严重」
驾考共四个科目,科目一都是单选题,可以说最简单的一个项目了。只要刷几个小时的题、再做几套真题,考过基本没问题。让人没想到的时,就连这么简单的考试,竟也有人动起了作弊的歪心...
日期:05-31
腾讯汤道生:大模型只是起点 应用落地是更大的图景_腾讯汤道生 身价
6月21日 消息:在今日的“企业管理者人工智能通识课”上,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生表示,在大模型具体实施中,模型、数据和算力是大家需要格外关注的...
日期:06-21
vivo y50售价_vivo Y50正式开售:骁龙665+5000mAh电池
  4月25日,vivo正式发布Y系列全新产品 vivo Y50。vivo Y50搭载高通骁龙665处理器,配备5000mAh电池与后置四摄。   vivo Y50搭载高通骁龙665处理器,配备最高8GB LPDDR4X内...
日期:12-12
打造低空经济示范区,天津加速5G-A空域通感一体化基站_天津5g建设
通信世界网消息(CWW)智慧低空,通感护航。在世界智能产业博览会召开前夕,天津移动携手中兴通讯在七里海国家湿地公园完成基于4.9GHz的5G-A空域通感一体化验证,展现天津移动在智能...
日期:06-18
你支持吗?韩国2028年起高考取消文理分科 减轻师生负担_韩国高考制度
对于高考文理分科这件事,你支持吗?iphone通知员工返回美国办公室韩国教育部日前公布《关于2028年高考制度改革方案》,《方案》规定2028年起韩国大学修学能力考试,将进一步取消文...
日期:10-16
知乎CEO周源:未来3年将打造500位超100万收入的创作者「源计划 知乎」
11月25日 消息:今日,知乎创始人、CEO周源发出公开信,从社区定位、内容生态和职业教育三个方面分享知乎的发展和布局。知乎2022年一系列动作都是围绕专业讨论在展开:“海盐计划...
日期:12-03
美团一度跌超5% 抖音或将入局外卖业务「抖音外卖团购上线了」
2月8日 消息:2月8日消息,今日上午,美团一度跌超5%,此前有报道称,3月1日抖音将上线全国外卖服务。对此,抖音生活服务相关负责人回应,“团购配送”项目目前仍在北京、上海、成都试点...
日期:02-08
区块链的下半场,与 NFT 无关「区块链与NFT的关系」
蚂蚁链如何重塑交易信任。作者 | Founder Park下半年红米会发布什么千元机虚拟货币已经在某种意义上成了「割韭菜」的代名词了。前不久,哔哩哔哩的二舅视频刚走红,便有人借此...
日期:09-15
wegame怪物猎人下架真实原因「微星联名游戏《怪物猎人》系列电脑硬件全面上市」
为了庆祝《怪物猎人》游戏系列20周年,电脑硬件大厂MSI微星科技与其游戏开发商CAPCOM合作推出了系列限量版游戏主题电脑硬件装备。这些产品包括游戏笔记本电脑、显示器、显卡...
日期:05-10
火狐8增强安全功能 封锁未经用户许可插件_火狐该版本的插件存在安全
8月14日消息,据国外媒体报道,尽管大多数用户目前使用的是火狐5浏览器,Mozilla发布了火狐8浏览器中的一项新功能。这项功能可以自动封锁与第三方软件捆绑在一起的任何软件。...
日期:07-22
浙江或将迎来第四家苹果 Apple Store 零售店,官网显示落地温州
IT之家 1 月 12 日消息,根据苹果官网的最新招聘公告,浙江或将迎来第四家苹果 Apple Store 零售店,落地温州市。苹果目前在浙江共开设了3 家 Apple Store 零售店,分别位于宁波天...
日期:01-12
中传校友创业联合会筹备会在首创中传携战狼2投资人杨硕等众多校友代表共同发起打造校友创新创业服务平台和传媒特色产学研转化基地倡议
  编者按:3月1日,首届文创校友沙龙暨中国传媒大学校友创业联合会筹备会在首创·中传传媒产业创新中心举行。该活动由创业校友代表自发组织,在首创•中传传媒产业创新中心共...
日期:06-20
华为P60最新消息「华为P60发布时间曝光 影像实力或更强」
中关村在线消息:今日,微博博主曝光了华为P60系列的发布时间为明年第一季度,此前传出出的华为P60渲染图真实性存疑。该渲染图显示,华为P60采用了与P50相同的万象双环设计,正面屏幕...
日期:10-19
ar 乳腺癌「研究发现AI在乳腺癌筛查中效果相当于两名放射科医生」
8月2日 消息:据世界卫生组织称,乳腺癌是全球最常见的癌症,每年有超过230万名女性患上这种疾病。筛查可以在更早、更容易治疗的阶段发现乳腺癌,从而改善预后并降低死亡率。一项...
日期:08-02
Arm服务器芯片十五年,有望跑出一匹新黑马
在迅速涌动的人工智能大潮中,芯片作为推动智能、技术产业发展的核心驱动力,面对时代变革,以Ampere Computing、平头哥、博瑞晶芯为主的众多服务器芯片设计企业不断迎来创新与发...
日期:03-20
得一微电子是上市公司吗「实力认证,得一微荣获2023“中国芯”优秀市场表现产品奖」
9 月 20 日,第十八届“中国芯”优秀产品征集结果在2023(第十八届)“中国芯”琴珠澳集成电路产业促进大会上公布。凭借过硬的产品实力和亮眼的市场表现,得一微电子(YEESTOR)的“...
日期:09-22
刷新问界家族销量记录!问界M7累计大定数突破18万台_问界 m5
快科技5月31日消息,我们从问界汽车官方获悉,问界M7自上市以来,累计大定数已突破18万台,刷新了问界家族的销量记录。到2024年4月,问界M7智驾总里程已超过9946万公里,其中高速智驾总...
日期:05-31
天工编辑器官网「解码天工SkyMusic,填补AI音乐领域技术空白」
这几周,全球无不对AI音乐大模型那”以假乱真“的音乐创作能力感到惊奇不已,甚至有人认为“AI将革新音乐产业”。而位居这场革新风暴中心的,正是昆仑万维推出的国内唯 一公开可...
日期:04-12
微软实时美股股价「美股周二:纳指涨超2%,英伟达、微软创历史收盘新高」
11月15日消息,美国时间周二,美股收盘主要股指全线大幅上涨,纳指涨幅超过2%。美国10月份温和通胀数据增强了美联储结束加息的预期,投资者继续认为2024年美联储将降息。华为新机ma...
日期:11-15
苹果15pro尺寸「iPhone 15 Pro Max就长这样,很舒服,还有你期待许久的新功能」
不出意外的话,苹果将于今年 9 月中旬推出 iPhone 15 系列新机,算下来就剩 3 个月左右的时间了。这代依然是提供 4 款机型,分为 iPhone 15 和 iPhone 15 Plus 两款基础版,以及 iP...
日期:06-09