您的位置:首页 > 互联网

谷歌:LLM找不到推理错误,但能纠正它_谷歌搜索显示找不到网址

发布时间:2023-11-28 01:41:44  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

LLM 找不到推理错误,但却能纠正错误!

airpods pro2耳机本体电池容量增大15%

今年,大型语言模型(LLM)成为 AI 领域关注的焦点。LLM 在各种自然语言处理(NLP)任务上取得了显著的进展,在推理方面的突破尤其令人惊艳。但在复杂的推理任务上,LLM 的表现仍然欠佳。

那么,LLM 能否判断出自己的推理存在错误?最近,剑桥大学和 Google Research 联合开展的一项研究发现:LLM 找不到推理错误,但却能使用该研究提出的回溯(backtracking)方法纠正错误。

  • 论文地址:https://arxiv.org/pdf/2311.08516.pdf

  • 数据集地址:https://github.com/WHGTyen/BIG-Bench-Mistake

这篇论文引起了一些争论,有人提出异议,比如在 Hacker News 上,有人评论这篇论文的标题言过其实,有些标题党。也有人批评说其中提出的校正逻辑错误的方法基于模式匹配,而非采用逻辑方法,这种方法其实容易失败。

Huang 等人在论文《Large language models cannot self-correct reasoning yet》中指出:自我校正或许是能有效地提升模型输出的风格和质量,但鲜有证据表明 LLM 有能力在没有外部反馈的情况下识别和纠正自身的推理和逻辑错误。比如 Reflexion 和 RCI 都使用了基本真值的纠正结果作为停止自我校正循环的信号。

剑桥大学和 Google Research 的研究团队提出了一种新思路:不再把自我校正看作一个单一过程,而是分成错误发现和输出校正两个过程:

  • 错误发现是一种基础推理技能,已经在哲学、心理学和数学领域得到了广泛的研究和应用,并催生了批判性思维、逻辑和数学谬误等概念。我们可以合理地认为发现错误的能力也应该是 对 LLM 的一项重要要求。但是,本文结果表明:当前最佳的 LLM 目前还无法可靠地发现错误。

  • 输出校正涉及部分或完全修改之前生成的输出。自我校正是指由生成输出的同一模型来完成校正。尽管 LLM 没有发现错误的能力,但本文表明:如果能提供有关错误的信息(如通过一个小型的监督式奖励模型),LLM 可以使用回溯方法校正输出。

本文的主要贡献包括:

  • 使用思维链 prompt 设计方法,任何任务都可以变成错误发现任务。研究者为此收集并发布了一个 CoT 类型的轨迹信息数据集 BIG-Bench Mistake,该数据集由 PaLM 生成,并标注了第一个逻辑错误的位置。研究者表示,BIG-Bench Mistake 在它的同类数据集中,是首个不局限于数学问题的数据集。

  • 为了测试当前最佳 LLM 的推理能力,研究者基于新数据集对它们进行了基准评测。结果发现,当前 SOTA LLM 也难以发现错误,即便是客观的明确的错误。他们猜测:LLM 无法发现错误是 LLM 无法自我校正推理错误的主要原因,但这方面还有待进一步研究。

  • 本文提出使用回溯方法来校正输出,利用错误的位置信息来提升在原始任务上的性能。研究表明这种方法可以校正原本错误的输出,同时对原本正确的输出影响极小。

  • 本文将回溯方法解释成了言语强化学习的一种形式,从而可实现对 CoT 输出的迭代式提升,而无需任何权重更新。研究者提出,可以通过一个经过训练的分类器作为奖励模型来使用回溯,他们也通过实验证明了在不同奖励模型准确度下回溯的有效性。

BIG-Bench Mistake数据集

google找不到

BIG-Bench 由2186个 CoT 风格的轨迹信息集合组成。每个轨迹由 PaLM2-L-Unicorn 生成,并标注了第一个逻辑错误的位置。表1展示了一个轨迹示例,其中错误位于第4步。

这些轨迹来自 BIG-Bench 数据集中的5个任务:词排序、跟踪经过混洗的对象、逻辑推演、多步算术和 Dyck 语言。

他们使用 CoT prompt 设计法来调用 PaLM2,使其解答每个任务的问题。为了将 CoT 轨迹分成明确的步骤,他们使用了论文《React: Synergizing reasoning and acting in language models》中提出的方法,分开生成每一步,并使用了换行符作为停止 token。

在该数据集中,生成所有轨迹时,temperature =0。答案的正确性由精确匹配决定。

基准测试结果

表4报告了 GPT-4-Turbo、GPT-4和 GPT-3.5-Turbo 在新的错误发现数据集上的准确度。

找不到chrome_elf.dll

对于每个问题,可能的答案有两种情况:要么没有错误,要么就有错误。如有错误,则数值 N 则会指示第一个错误出现的步骤。

所有模型都被输入了同样的3个 prompt。他们使用了三种不同的 prompt 设计方法:

  • 直接的轨迹层面的 prompt 设计

  • 直接的步骤层面的 prompt 设计

  • CoT 步骤层面的 prompt 设计

相关讨论

研究结果表明,这三个模型都难以应对这个新的错误发现数据集。GPT 的表现最好,但其在直接的步骤层面的 prompt 设计上也只能达到52.87的总体准确度。

这说明当前最佳的 LLM 难以发现错误,即使是在最简单和明确的案例中。相较之下,人类在没有特定专业知识时也能发现错误,并且具有很高的一致性。

chrome_proxy.exe无法找到入口

研究者猜测:LLM 无法发现错误是 LLM 无法自我校正推理错误的主要原因。

prompt 设计方法的比较

研究者发现,从直接轨迹层面的方法到步骤层面的方法再到 CoT 方法,无错误的轨迹准确度显著下降。图1展示了这种权衡。

研究者猜测其原因是模型生成的输出的数量。这三种方法涉及到生成越来越复杂的输出:直接的轨迹层面的 prompt 设计方法需要单个 token,直接的步骤层面的 prompt 设计方法每步需要一个 token,CoT 步骤层面的 prompt 设计每步需要多个句子。如果每次生成调用都有一定的概率识别出错误,那么对每条轨迹的调用越多,模型识别出至少一个错误的可能性就越大。

将错误位置作为正确性代理的少样本 prompt 设计

研究者探究了这些 prompt 设计方法能否可靠地决定一个轨迹的正确性,而不是错误位置。

他们计算了平均 F1分数,依据为模型能否预测轨迹中是否存在错误。如果存在错误,则假设模型预测的是该轨迹是 incorrect_ans。否则就假设模型预测的是该轨迹是 correct_ans。

使用 correct_ans 和 incorrect_ans 作为正例标签,并根据每个标签的出现次数进行加权,研究者计算了平均 F1分数,结果见表5。

这个加权 F1分数表明,对于确定最终答案的正确性而言,通过 prompt 寻找错误是一个很糟糕的策略。

回溯

Huang 等人指出 LLM 无法在没有外部反馈的情况下自我校正逻辑错误。但是,在许多真实世界应用中,通常没有可用的外部反馈。

研究者在这项研究中采用了一种替代方案:用一个在少量数据上训练的轻量级分类器替代外部反馈。与传统强化学习中的奖励模型类似,这个分类器可以检测 CoT 轨迹中的任何逻辑错误,然后再将其反馈给生成器模型以提升输出。如果想要最大化提升,可以进行多次迭代。

研究者提出了一种简单的回溯方法,可以根据逻辑错误的位置来提升模型的输出:

  • 模型首先生成一个初始的 CoT 轨迹。在实验中,设置 temperature =0。

  • 然后使用奖励模型确定轨迹中错误的位置。

  • 如果没有错误,就转向下一个轨迹。如果有错误,则再次向模型输入 prompt 以执行相同的步骤,但这一次 temperature =1,生成8个输出。这里会使用同样的 prompt 以及包含错误步骤之前所有步骤的部分轨迹。

  • 在这8个输出中,过滤掉与之前的错误一样的选项。再从剩下的输出中选择对数概率最高的一个。

  • 最后,用新的重新生成的步骤替换之前步骤,再重新设置 temperature =0,继续生成该轨迹的剩余步骤。

相比于之前的自我校正方法,这种回溯方法有诸多优势:

  • 新的回溯方法不需要对答案有预先的知识。相反,它依赖于有关逻辑错误的信息(比如来自训练奖励模型的信息),这可以使用奖励模型一步步地确定。逻辑错误可能出现在 correct_ans 轨迹中,也可能不出现在 incorrect_ans 轨迹中。

  • 回溯方法不依赖于任何特定的 prompt 文本或措辞,从而可减少相关的偏好。

  • 相比于需要重新生成整个轨迹的方法,回溯方法可以通过复用已知逻辑正确的步骤来降低计算成本。

  • 回溯方法可直接提升中间步骤的质量,这可能对需要正确步骤的场景来说很有用(比如生成数学问题的解),同时还能提升可解释性。

华为mate50pro预售价

研究者基于 BIG-Bench Mistake 数据集实验了回溯方法能否帮助 LLM 校正逻辑错误。结果见表6。

∆accuracy✓ 是指在原始答案是 correct_ans 时,在轨迹集合上的 accuracy_ans 之差。

∆accuracy✗ 则是对于 incorrect_ans 轨迹的结果。

这些分数结果表明:校正 incorrect_ans 轨迹的收益大于改变原本正确的答案所造成的损失。此外,尽管随机基准也获得了提升,但它们的提升显著小于使用真正错误位置时的提升。注意,在随机基准中,涉及步骤更少的任务更可能获得性能提升,因为这样更可能找到真正错误的位置。

为了探索在没有好的标签时,需要哪种准确度等级的奖励模型,他们实验了通过模拟的奖励模型使用回溯;这种模拟的奖励模型的设计目标是产生不同准确度等级的标签。他们使用 accuracy_RM 表示模拟奖励模型在指定错误位置的准确度。

当给定奖励模型的 accuracy_RM 为 X% 时,便在 X% 的时间使用来自 BIG-Bench Mistake 的错误位置。对于剩余的 (100− X)%,就随机采样一个错误位置。为了模拟典型分类器的行为,会按照与数据集分布相匹配的方式来采样错误位置。研究者也想办法确保了采样的错误位置与正确位置不匹配。结果见图2。

可以看到 ∆accuracy✓ 的损失在65% 时开始趋于稳定。事实上,对于大多数任务,在 accuracy_RM 大约为60-70% 时,∆accuracy✓ 就已经大于 ∆accuracy✗ 了。这表明尽管更高的准确度能得到更好的结果,但即便没有黄金标准的错误位置标签,回溯也依然有效。


返回网站首页

本文评论
微软公司鲍尔默_鲍尔默:微软中国营收近20亿美元 仍不及荷兰
华为mate30停产了吗联想z5 pro测评 多少钱能收购苹果公司麒麟810发热吗 百度影音beta 5发布 字幕功能给力呈现 小盒子大世界 4399游戏盒精彩游戏无限量 iphone拆电池起火...
日期:07-28
苹果或解决折叠屏折痕问题!新专利公布_苹果折叠屏iphone
快科技5月10日消息,根据USPTO(美国商标和专利局)公布的最新清单,苹果在近日获得了一项与折叠屏手机相关的专利技术。岚图free电池容量根据专利描述,该专利能够通过外部施加热、光...
日期:05-10
妈妈给宠物狗准备大批年货走红抖音,网友:羡慕狗子(宠物狗抖音视频)
  近日,抖音创作者@你的陈比方 (抖音ID:904276395)拍摄的一段母亲给家里狗子准备大堆年货的视频走红网络。目前该视频还登上了抖音实时热榜,看过视频的网友都表示狗子也太幸...
日期:07-10
IDC:深信服零信任市场份额「双第一」,持续保持领先优势_深信服 零信任
根据IDC《中国零信任网络访问解决方案市场份额,2022:共筑信任城墙》、《中国零信任网络访问场景之软件定义边界市场份额,2022:核心应用场景的规模化引领市场稳步发展》报告,深...
日期:08-23
三只松鼠双十一的品牌营销_三只松鼠双11狂卖10亿,创造品牌营销新高度
  今年双11,对于7月份成功上市的三只松鼠来说,又是一场被外界、被自己赋予重要期待的硬仗。   截止到11日24.00,三只松鼠全渠道销售额突破10亿大关,以10.49亿的最终销...
日期:12-19
红米note 3「红米note3刷机」
红米Note 3是小米公司下属子品牌红米推出的一款手机,于2016年1月发布。该手机搭载了强劲的MTK Helio X10芯片,拥有高性能和低功耗优势。同时,该款手机还拥有出色的拍照能力以及...
日期:05-30
金山办公与MiniMax、百度文心、智谱AI三大模型方同台亮相2023世界人工智能大会
通信世界网消息(CWW)7月6日,金山办公携旗下基于大语言模型的智能办公助手WPS AI亮相2023世界人工智能大会,WPS AI官网(ai.wps.cn)同步上线,并开启招募智能办公体验官的通道,WPS Offi...
日期:07-07
魅族20最新消息「魅族21系列5款机型曝光 最低1599元起」
魅族公司于10月4日最新曝光了5款新机型号,包括魅族21和魅族21Pro两款。其中3款为国行系列,2款尚未确认其是否为海外版本或其他型号。华为5g和爱立信5g差距据此前消息,“数码闲...
日期:10-04
三个月关两店,宜家不受年轻人喜欢了?_宜家门店为什么那么少
  文 |;刘德炳   行业自身也在发生变革。   在北京五棵松附近的宜家体验中心,一进门不远处是沙发销售区,不过,前来选购沙发的消费者并不多,沙发上三三两两坐着一些人。中...
日期:08-17
非买不可!盘点 iPhone 14 系列十大升级亮点,Pro 版独占五大功能_iPhone 14 pro
万众期待的新一代 iPhone 14 系列正式推出,不出所料苹果今年推出了 iPhone 14、iPhone 14 Plus、iPhone 14 Pro 和 iPhone 14 Pro Max 四款机型,没有了 5.4 英寸的 mini 机型,...
日期:09-12
oppo reno11发布会时间11月23日发布会正式开始 OPPO-Reno11系列邀请函开箱
来源:中关村在线11月15日,OPPO官方宣布OPPO Reno11系列新品将在11月23日14:00正式发布。笔者也收到了OPPO寄来的邀请函,下面带大家看看邀请函的详细信息。这次的邀请函是一个黑...
日期:11-15
玩了2个月,我在Soul上发现了人类社交密码「soul chain」
声明:本文来自于微信公众号 深燃(ID:shenrancaijing),作者:苏琦,授权转载发布。你上一次觉得开心,是什么时候?两个多月前,在家百无聊赖的我,鬼使神差地打开了下载很久的Soul,点进一...
日期:05-19
快手9月受理侵权举报1221条 相比8月下降25%「快手举报犯法吗」
10月10日 消息:日前,快手发布了2022年9月侵权举报受理及处置情况的通知,9月共受理侵权举报1221条。快手表示,为进一步展现平台对于网络侵权行为的“零容忍”态度,严格落实企业主...
日期:10-21
七国集团在哪里召开「七国集团就AI开发行为准则达成共识」
10月30日 消息:据国外媒体报道,七国集团(G7)今日将就开发先进人工智能(AI)系统的公司的行为准则达成一致。一份文件显示,考虑到人工智能可能带来的隐私和安全风险,这套自愿行为准...
日期:10-30
友盟+与见实科技等重量级合作伙伴梳理了私域流量的7种新打法!
  原以为,至少要到2020年底才能看到新一轮私域流量玩法大迭代,但到年初时,借着疫情危机带来的推力,升级和迭代比想象中来的更快,新玩法和新组合层出不穷。   友盟+与见...
日期:07-14
华为Mate怎么样录屏「华为mate怎么样」
华为Mate系列手机一直以来都备受消费者的关注和青睐,因为它们一直都是为高端市场而设计的。关于华为Mate系列的最新一代华为Mate 40系列手机,具体怎么样呢?下面我们来进行搜集...
日期:05-29
6G、脑纹核身、刷脸识狗等黑科技提前揭晓-探营2023外滩大会_外滩峰会视频
【】9月6日消息,2023Inclusion·外滩大会明天将正式开幕。今日,小编来到大会展区探营,提前打卡展区亮点。本届大会以“科技·创造可持续未来”为主题,展示了包括人工智能、区块...
日期:09-11
IBM中国为本地合作伙伴提供三大共创平台,拥抱“AI为先”新时代「ibm合作公司有哪些」
——推出“IBM鲁班创新精英伙伴计划”构建新一代AI赋能的行业解决方案苹果用户隐私事件( 2023 年 6 月 15 日,北京)日前,IBM中国在位于北京的IBM创新体验中心(InnovationStudi...
日期:06-16
茅台已申请咖啡相关商标!跟瑞幸联名的酱香拿铁火了:被评价像玫瑰腐乳汁
9月4日消息,贵州茅台与瑞幸咖啡推出的联名咖啡茅台瑞幸酱香拿铁”正式上架开卖,该产品零售价38元/杯。魅族mx4pro配置参数这款产品上架后引发关注,并多次冲上了微博热搜榜。对...
日期:09-04
查重名率「姓名查重,一天收入3000」
声明:本文来自于微信公众号 十里村(ID:shilipxl),作者:十里村,授权转载发布。各位村民好,我是村长。多数赚钱的生意,都是在赚信息差。益生菌是一类活性微生物,具有改善而且信息差...
日期:05-30