您的位置:首页 > 互联网

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了

发布时间:2024-05-06 11:00:53  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:梦晨,授权转载发布。

AI做数学题,真正的思考居然是暗中“心算”的?

特斯拉再被曝刹车失灵

纽约大学团队新研究发现,即使不让AI写步骤,全用无意义的“……”代替,在一些复杂任务上的表现也能大幅提升!

一作Jacab Pfau表示:只要花费算力生成额外token就能带来优势,具体选择了什么token无关紧要。

举例来说,让Llama34M回答一个简单问题:自然常数e的前6位数字中,有几个大于5的?

AI直接回答约等于瞎捣乱,只统计前6位数字居然统计出7个来。

让AI把验证每一数字的步骤写出来,便可以得到正确答案。

让AI把步骤隐藏,替换成大量的“……”,依然能得到正确答案!

这篇论文一经发布便掀起大量讨论,被评价为“我见过的最玄学的AI论文”。

那么,年轻人喜欢说更多的“嗯……”、“like……”等无意义口癖,难道也可以加强推理能力?

从“一步一步”想,到“一点一点”想

实际上,纽约大学团队的研究正是从思维链(Chain-of-Thought,CoT)出发的。

也就是那句著名提示词“让我们一步一步地想”(Let‘s think step by step)。

过去人们发现,使用CoT推理可以显著提升大模型在各种基准测试中的表现。

目前尚不清楚的是,这种性能提升到底源于模仿人类把任务分解成更容易解决的步骤,还是额外的计算量带来的副产物。

为了验证这个问题,团队设计了两个特殊任务和对应的合成数据集:3SUM和2SUM-Transform。

3SUM要求从一组给定的数字序列中找出三个数,使得这三个数的和满足特定条件,比如除以10余0。

这个任务的计算复杂度是O(n3),而标准的Transformer在上一层的输入和下一层的激活之间只能产生二次依赖关系。

也就是说,当n足够大序列足够长时,3SUM任务超出了Transformer的表达能力。

在训练数据集中,把与人类推理步骤相同长度的“...”填充到问题和答案之间,也就是AI在训练中没有见过人类是怎么拆解问题的。

开一个宠物殡葬需要多少资金

在实验中,不输出填充token“…...”的Llama34M表现随着序列长度增加而下降,而输出填充token时一直到长度14还能保证100%准确率。

2SUM-Transform仅需判断两个数字之和是否满足要求,这在 Transformer 的表达能力范围内。

但问题的最后增加了一步“对输入序列的每个数字进行随机置换”,以防止模型在输入token上直接计算。

结果表明,使用填充token可以将准确率从78.7%提高到93.6%。

除了最终准确率,作者还研究了填充token的隐藏层表示。实验表明,冻结前面层的参数,只微调最后一个Attention层,随着可用的填充token数量增多,预测的准确率递增。

这证实了填充token的隐藏层表示确实包含了与下游任务相关的隐性计算。

AI学会隐藏想法了?

有网友怀疑,这篇论文难道在说“思维链”方法其实是假的吗?研究这么久的提示词工程,都白玩了。

团队表示,从理论上讲填充token的作用仅限于TC0复杂度的问题范围内。

TC0也就是可以通过一个固定深度的电路解决的计算问题,其中电路的每一层都可以并行处理,可以通过少数几层逻辑门(如AND、OR和NOT门)快速解决,也是Transformer在单此前向传播中能处理的计算复杂度上限。

而足够长的思维链,能将Transformer的表达能力扩展到TC0之外。

而且让大模型学习利用填充token并不容易,需要提供特定的密集监督才能收敛。

也就是说,现有的大模型不太可能直接从填充token方法中获益。

但这并不是当前架构的内在局限性,如果在训练数据中提供足够的示范,它们应该也能从填充符号中获得类似的好处。

这项研究还引发了一个令人担心的问题:大模型有能力进行无法监控的暗中计算,对AI的可解释性和可控性提出了新的挑战。

换句话说,AI可以不依赖人类经验,以人们看不见的形式自行推理。

这既刺激又可怕。

最后有网友开玩笑提议,让Llama3首先生成1千万亿点点点,就能得到AGI的权重了(狗头)。

论文:

https://arxiv.org/abs/2404.15758

参考链接:

[1]https://x.com/jacob_pfau/status/1783951795238441449

[2]https://x.com/johnjnay/status/1784261779163349110


返回网站首页

本文评论
细节中感受”体验好用”,银河麒麟桌面操作系统很有料!「银河麒麟桌面操作系统 v10」
麒麟软件最 新发布的银河麒麟桌面操作系统 V10 SP12303 产品,以体验好用、安全好用、生态好用、行业好用四大“好用”为特色。新版本在桌面环境和交互体验上进行更加贴近用户...
日期:05-18
史上首个100%开源大模型重磅登场!破纪录公开代码/权重/数据集/训练全过程,AMD都能训
声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。多年来,语言模型一直是自然语言处理(NLP)技术的核心,考虑到模型背后的巨大商业价值,最大最先进的模型的技...
日期:02-04
百度小度青禾手机入网 支持4G网络搭载安卓系统_小度在青
5月12日 消息:小度青禾手机已在工信部认证网站现身,型号为 XD-SEE00-2301,支持TD-LTE/LTE FDD等4G网络,采用双卡双待设计,搭载安卓系统,水滴屏,后置双摄,塑料直角中框。据透露,该手...
日期:05-12
杭州服装行业所有公司名单「杭州一服饰公司逃税被罚缴3.6亿 法定代表人已被限消」
近日,国家税务总局浙江省税务局公布了一则重大税收违法失信案件信息,涉及杭州伊裳服饰有限公司。该公司因逃避缴纳税款,被国家税务总局杭州市税务局第三稽查局查处,并依法追缴税...
日期:03-13
315调查丨起底不可注射的美容针:依圣姿生物医药、北京旭日美业商贸
凤凰网科技讯 3月15日消息,央视315晚会曝光不可注射的美容针,妆字号美容针或致毁容。其中,依圣姿生物医药有限公司和北京旭日美业商贸有限公司被点名。有货yoho最新估值天眼查A...
日期:03-15
甘肃麻辣烫火爆出圈!灵魂配料辣椒粉销量飙涨100倍_甘肃麻辣烫做法视频
最近,天水麻辣烫火爆全网,频频登上各大平台热门榜,成为了继淄博烧烤后的又一美食。据悉,天水麻辣烫配料丰富,再加上有天水独特的地理气候所产的花椒、辣椒、手擀粉、食用油的标配...
日期:03-15
日本学校可以带手机吗「日本允许在学校内有限地使用ChatGPT等生成式AI」
7月5日 消息:日前,日本教育部发布了一项指导方针,允许在小学、中学和高中有限地使用生成式人工智能,如ChatGPT。这些指导方针要求对小学生(13岁以下)使用AI特别要谨慎。此外,纯粹...
日期:07-05
抖音两个千万网红,一个收割老爸、一个收割老妈。「抖音两个千万网红,一个收割老爸,一个收割老妈视频」
声明:本文来自于微信公众号 十里村(ID:shilipxl),作者:村长住在十里村,授权转载发布。各位村民好,我是村长。在抖音有两个千万级的网红,一个收割了45岁以上的女人,一个收割了45岁以...
日期:06-26
多屏电脑「多屏电脑炒股使用技巧」
随着科技的不断进步和人们对数字化生活方式的追求,已经成为了一个趋势。可以让你同时使用多个屏幕,提高你的工作效率和娱乐体验。下面是一些关于的信息,包括其定义、使用方法和...
日期:05-28
开发人员创建一个AI素描工具来生成嫌疑人画像 专家却无比担忧「人工智能绘画素材」
2月8日 消息:据Motherboard报道,两名开发人员使用 OpenAI 的 DALL-E2图像生成模型创建了一个法医素描程序,可以根据用户输入内容为创建“超逼真的”嫌疑人素描。该程序称为For...
日期:02-10
聚力同行 共话未来 | “星河产城领袖行”走进艾比森活动圆满落幕
  9月8日,由星河产业集团携手中国上市公司高尔夫球队推出的“星河产城领袖行 走进上市公司”系列主题活动第一期“聚力同行 共话未来”走进艾比森活动圆满落幕。   星河...
日期:04-06
OPPO Reno9系列外观设计亮相 全面升级打造轻薄手感「oppo reno外观尺寸」
11月18日上午,OPPO手机官方微博再次释出了有关新机OPPO Reno9系列的更多信息,包括全面提升的机身材质、屏幕素质等,带来全系拉满的极致体验。华为手机换屏半价服务金蝶财务云价...
日期:11-23
王者荣耀抖音直播解禁,双方握手言和_抖音禁播王者荣耀原因
1月14日 消息:腾讯旗下的王者荣耀宣布,将于1月21日起全面开放抖音直播。这意味着,双方在长达5年的侵权纠纷后,终于握手言和。王者荣耀是腾讯旗下最赚钱的手游之一,拥有超过10亿...
日期:01-14
梅西捧得大力神杯,他代言过哪些国内品牌?「梅西代言的中国品牌」
声明:本文来自于微信公众号 三言Pro(ID:sycaijing),作者:三言Pro,授权转载发布。12月18日,2022年卡塔尔世界杯在多哈卢赛尔体育场上演终极对决。一场鏖战之后,阿根廷获得冠军,法国...
日期:12-20
iphone4s是lcd屏幕吗「iPhone SE 4屏幕曝光:或采用6.1英寸LCD屏 保留刘海」
10月10日消息,今天有分析师曝出,iPhone SE 4将采用6.1英寸LCD屏,保留屏幕刘海设计。此前也有关于iPhone SE 4的消息,消息显示iPhone SE 4将不会支持 Face ID,而是像以前机型一样...
日期:10-12
m峰会:电商AI大模型上线,阿里妈妈百灵&万相台无界版发布!「阿里妈妈品牌专区」
声明:本文来自于微信公众号 新熵(ID:xinshangxz),作者:古廿,授权转载发布。随着移动互联网的浸润,用户消费行为发生改变,传统的经营经验逐渐显得乏力。为了给生意多创造出一份确定...
日期:09-07
张雪峰:已向郑州大学打款50万 哈尔滨理工大学打款25万_张雪峰肄业于郑州大学
快科技1月31日消息,今日,张雪峰发微博称,之前给大家说会向郑州大学和哈尔滨理工大学捐款的事情,今天已打款。三星s10国行型号9730张雪峰还在此条微博下晒出打款明细。其中,他向哈...
日期:01-31
曼孚科技完成数千万元B轮融资,以数据构建面向未来的AI基础设施_曼孚科技股票
(原标题:曼孚科技完成数千万元B轮融资,以数据构建面向未来的AI基础设施) 近日,AI基础架构与数据智能平台服务商曼孚科技宣布,已于...
日期:10-09
和臃肿说再见!小米MIUI 14手机操作系统剃刀计划更新「miui114514」
MIUI小米粥在小米社区发布消息称,MIUI 14手机操作系统第三批机型已全量推送。同时,为了优化系统性能和提高用户体验,针对部分陈旧、冗余功能进行了下线,这将在后续的自升级、OTA...
日期:06-17
估值高达4700亿元,芯片巨无霸来了!最大客户来自中国,英伟达、苹果、谷歌出手了
每经编辑:毕陆名软银集团旗下芯片巨头ARM于当地时间9月5日正式提交了IPO申请文件显示,公司每股ADS定价在47-51美元之间,预计总计发行9550万股ADS。据媒体报道,ARM整体估值达640...
日期:09-06