您的位置:首页 > 互联网

GPT-4数学能力大蹦极!OpenAI爆火研究「过程监督」突破78.2%难题,干掉幻觉

发布时间:2023-06-01 14:54:22  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】ChatGPT为人诟病的「数学智障」问题,有望彻底攻克!OpenAI最新研究发现,利用「过程监督」可以大幅提升GPT模型的数学能力,干掉它们的幻觉。

ChatGPT自发布以来,数学能力饱受诟病。

就连「数学天才」陶哲轩曾表示,GPT-4在自己的数学专业领域,并没有太多的增值。

怎么办,就一直让ChatGPT做个「数学智障」么?

OpenAI在努力——为了提升GPT-4的数学推理能力,OpenAI团队用「过程监督」(PRM)训练模型。

让我们一步一步验证!

图片

论文地址:https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf

论文中,研究人员训练模型通过奖励每一个正确的推理步骤,即「过程监督」,而不仅仅是奖励正确的最终结果(结果监督),在数学问题解决方面取得最新SOTA。

具体来讲, PRM解决了MATH测试集代表性子集中78.2%的问题。

此外,OpenAI发现「过程监督」在对齐上有很大的价值——训练模型产生人类认可的思维链。

最新研究当然少不了Sam Altman的转发,「我们的Mathgen团队在过程监督上取得了非常令人振奋的结果,这是对齐的积极信号。」

图片

在实践中,「过程监督」因为需要人工反馈,对于大模型和各种任务来说成本都极其高昂。因此,这项工作意义重大,可以说能够确定OpenAI未来的研究方向。

京东物流理赔1到7个工作日

解决数学问题

实验中,研究人员用MATH数据集中的问题,来评估「过程监督」和「结果监督」的奖励模型。

让模型为每个问题生成许多解决方案,然后挑选每个奖励模型排名最高的解决方案。

如图显示了所选解决方案中,取得正确最终答案的百分比,作为所考虑解决方案数量的函数。

「过程监督」奖励模型不仅在整体上表现更好,而且随着考虑每个问题的更多解决方案,性能差距也在扩大。

这表明,「过程监督」奖励模型更加可靠。

图片

如下,OpenAI展示了模型的10个数学问题和解决方案,以及对奖励模型优缺点的评论。

从以下三类指标,真正(TP)、真负(TN)、假正(FP),对模型进行了评估。

图片

真正(TP)

先来简化个三角函数公式。

这个具有挑战性的三角函数问题,需要以一种不明显的顺序应用几个恒等式。

但是大多数解决尝试都失败了,因为很难选择哪些恒等式实际上是有用的。

虽然GPT-4通常不能解决这个问题,只有0.1%的解决方案尝试实现正确答案,但奖励模型正确地识别出这个解决方案是有效的。

图片

这里,GPT-4成功地执行了一系列复杂的多项式因式分解。

在步骤5中使用Sophie-Germain恒等式是一个重要的步骤。可见,这一步骤很有洞察力。

图片

在步骤7和8中,GPT-4开始执行猜测和检查。

这是该模型可能产生「幻觉」的常见地方,它会声称某个特定的猜测是成功的。在这种情况下,奖励模型验证每一步,并确定思维链是正确的。

图片

模型成功地应用了几个三角恒等式以简化表达式。

图片

真负(TN)

在步骤7中,GPT-4试图简化一个表达式,但尝试失败。奖励模型发现了这个错误。

图片

在步骤11中,GPT-4犯了一个简单的计算错误。同样被奖励模型发现。

图片

GPT-4在步骤12中尝试使用差平方公式,但这个表达式实际上并非差平方。

图片

步骤8的理由很奇怪,但奖励模型让它通过了。然而,在步骤9中,模型错误地将表达式分解出因子。

奖励模型便纠出这个错误。

图片

假正(FP)

在步骤4中,GPT-4错误地声称「序列每12项重复一次」,但实际上每10项重复一次。这种计数错误偶尔会欺骗奖励模型。

图片

步骤13中,GPT-4试图通过合并类似的项来简化方程。它正确地将线性项移动并组合到左边,但错误地保持右边不变。奖励模型被这个错误所欺骗。

图片

GPT-4尝试进行长除法,但在步骤16中,它忘记在小数的重复部分包括前面的零。奖励模型被这个错误所欺骗。

图片

GPT-4在步骤9中犯了一个微妙的计数错误。

表面上,声称有5种方法可以交换同色的球(因为有5种颜色)似乎是合理的。

然而,这个计数低估了2倍,因为Bob有2个选择,即决定把哪个球给Alice。奖励模型被这个错误所欺骗。

图片

过程监督

虽然大语言模型在复杂推理能力方面有了很大的提升,但即便是最先进的模型仍然会产生逻辑错误,或胡说八道,也就是人们常说的「幻觉」。

在生成式人工智能的热潮中,大语言模型的幻觉一直让人们苦恼不已。

图片

马斯克说,我们需要的是TruthGPT

比如最近,一位美国律师在纽约联邦法院的文件中就引用了ChatGPT捏造出的案件,可能面临制裁。

OpenAI的研究者在报告中提到:“在需要多步骤推理的领域,这些幻觉尤其成问题,因为,一个简单的逻辑错误,就足以对整个解决方案造成极大的破坏。”

而且,减轻幻觉,也是构建一致AGI的关键。

华为平板matepad2020

ipad官方支架

怎么减少大模型的幻觉呢?一般有两种方法——过程监督和结果监督。

「结果监督」,顾名思义,就是根据最终结果给大模型反馈,而「过程监督」则可以针对思维链中的每个步骤提供反馈。

图片

在过程监督中,会奖励大模型正确的推理步骤,而不仅仅是奖励它们正确的最终结论。这个过程,会鼓励模型遵循更多类似人类的思维方法链,因而也就更可能造就更好的可解释AI。

OpenAI的研究者表示,虽然过程监督并不是OpenAI发明的,但OpenAI正在努力推动它向前发展。

最新研究中, OpenAI把「结果监督」或「过程监督」两种方法都试了一遍。并使用MATH数据集作为测试平台,并对这两种方法进行了详细比较。

结果发现,「过程监督」能够明显提高模型性能。

图片

对于数学任务,「过程监督」对大模型和小模型都产生了明显更好的结果,这意味着模型通常是正确的,并且还表现出了更像人类的思维过程。

这样,即使在最强大的模型中也很难避免的幻觉或逻辑错误,就可以减少了。

对齐优势明显

研究人员发现了「过程监督」比「结果监督」有几个对齐优势:

· 直接奖励遵循一致的思维链模型,因为过程中的每个步骤都受到精确的监督。

· 更有可能产生可解释的推理,因为「过程监督」鼓励模型遵循人类认可的过程。相比之下,结果监督可能会奖励一个不一致的过程,而且通常更难审查。

图片

另外值得一提的是,在某些情况下,让AI系统更安全的方法可能会导致性能下降。这种成本被称为「对齐税」(alignment tax)。

一般来说,为了部署最有能力的模型,任何「对齐税」成本都可能阻碍对齐方法的采用。

但是,研究人员如下的结果表明,「过程监督」在数学领域测试过程中实际上会产生「负对齐税」。

可以说,没有因为对齐造成较大性能损耗。

图片

OpenAI发布80万人工标注数据集

值得注意的是,PRM需要更多的人类标注,还是深深离不开RLHF。

过程监督在数学以外的领域,具有多大的适用性呢?这个过程需要进一步探索。

OpenAI研究人员开放了这次人类反馈数据集PRM,包含800,000个步骤级正确标注:12K数学问题生成的75K解决方案

图片

如下是一个标注的示例。OpenAI正在发布原始标注,以及在项目第1阶段和第2阶段给标注者的指示。

图片

网友热评

英伟达科学家Jim Fan对OpenAI最新研究做了一个总结:

对于具有挑战性的分步问题,在每一步都给予奖励,而不是在最后给予单一的奖励。基本上,密集奖励信号>稀疏奖励信号。过程奖励模型(PRM)能够比结果奖励模型(ORM)更好为困难的MATH基准挑选解决方案。下一步显然是用PRM对GPT-4进行微调,而本文还没有这样做。需要注意的是,PRM需要更多的人类标注。OpenAI发布了人类反馈数据集:在12K数学问题的75K解决方案中的800K步骤级标注。

图片

这就像上学时常说的一句老话,学会如何去思考。

图片

训练模型去思考,而不仅是输出正确的答案,将会成为解决复杂问题的game changer。

图片

ChatGPT在数学方面超级弱。今天我试图解决一个四年级数学书上的数学问题。ChatGPT给了错误答案。我把我的答案和ChatGPT的答案,在perplexity AI、谷歌的答案,以及四年级的老师进行了核对。每个地方都可以确认,chatgpt的答案是错误的。

图片

参考资料:

https://openai.com/research/improving-mathematical-reasoning-with-process-supervision


返回网站首页

本文评论
重磅!中国信通院发布《区块链白皮书(2022年)》_中国信通院 区块链
2022年12月29日,由中国信息通信研究院(以下简称“中国信通院”)、中国通信标准化协会和中国互联网协会指导,可信区块链推进计划、中国互联网协会区块链技术应用工作委员会、中国...
日期:12-29
三防手机指的是什么「三防手机是什么意思」
三防手机指的是具备防水、防尘、防摔功能的智能手机。随着人们对手机的要求越来越高,三防手机已成为消费者选择手机的重要考虑因素之一。首先让我们来了解一下“三防”指的是...
日期:05-28
华为投入研发金额全球排名第四 高于苹果、三星_华为的研发投入占比
1月9日 消息:据报道,欧盟委员会发布的2022年度欧盟工业研发投资记分牌上,华为投入研发金额190亿欧元(约1386.05亿元人民币),排名第四,仅次于谷歌、脸书和微软公司,超过苹果、三星、...
日期:01-09
天玑9000+中端旗舰!iQOO Neo7官宣10月20日发布「iqooz1天玑1000plus」
昨天,iQOO官方发布了新机iQOO Neo7的预热消息,并打出了天玑调校之王”的口号。特斯拉modely准备车辆交付今天,iQOO官方放出了与周深合作的品牌MV,并在结尾公布了iQOO Neo7的发布...
日期:10-25
乘联会:特斯拉1月份中国产汽车销量66051辆 环比增长18%「特斯拉2018年交付量」
2 月 8 日讯:乘联会公布数据称, 1 月新能源乘用车零售销量达到33. 2 万辆,同比下降6.3%,环比下降48.3%。其中,特斯拉销量 66051 辆,环比增长18%。印度充电器插头标准电脑开机显示...
日期:02-08
Windows 11 22H2再出问题 微软确认Windows Hello被更新损坏「windows 10 20h2更新失败」
在今天的"Windows 11 22H2这次搞坏了什么"的节目中,下一个登场的是Windows Hello认证系统。根据微软的最新公告,用户在使用Windows Hello登录时可能会遇到问题,如人脸识别、指...
日期:10-13
阿里巴巴启动亚洲创业者培训「阿里巴巴企业培训」
7月14日消息,近日,阿里巴巴2022年度亚洲创业者培训在杭州开班,本次培训将为631名创业者提供线上创业课程和实践。据透露,本届主要面向亚洲创业者的培训班报名人数达到了1735人,报...
日期:08-29
腾讯战略调整 “内容+社交”新战略成行业利好
近日,有消息人士透露,腾讯近期或进行重大战略调整,不仅要转型to b市场,腾讯最具优势的内容+社交......
日期:09-30
UC伯克利发布大语言模型榜单 清华ChatGLM冲进前五_伯克利语言学
5月5日 消息:日前,UC伯克利发起了大语言模型版排位赛,让大语言模型随机进行battle,并根据它们的Elo得分进行排名。排行榜数据显示,Vicuna以1169分排名第一,Koala位列第二。这两个...
日期:05-05
摩根智能:洞察用户需求、解决行业痛点 打造全屋智能家居领导品牌
  随着智能化浪潮的兴起,智能家居作为代表性项目,推动着智能时代的到来,智能家居品牌也像雨后春笋般涌现。传统的智能家居行业品牌多数是从传统照明电工、弱电安防、建材家...
日期:06-19
两名前eBay高管因参与网络跟踪活动而被判入狱「ebay背景调查」
  讯 北京时间9月30日早间消息,两名前eBay高管在美国当地时间周四被判入狱,原因是两人参与了一项网络跟踪计划,该计划的跟踪对象是一对夫妇,这对夫妇运作的一个电子商务博客被...
日期:10-02
腾讯财报背后的危险信号(腾讯财报发布时间)
美国人吐槽纽约地铁全新国美手机京东十一买手机有活动吗   作者/黄青春   当市场以为2022Q1是腾讯(0700.HK)上市以来最差财报(营收停滞、净利润腰斩)时,更浓的悲观情绪弥漫在...
日期:08-20
小红书的融资情况「小红书IPO或无望,亟待商业模式突围」
  撰文 | 茜茜题图 | IC Photo  近日,小红书原CFO杨若因家庭原因离职,又给小红书IPO之路再添迷雾。  艾媒咨询张毅对DoNews直言,“在小红书目前的阶段,CFO的功能就是为上...
日期:10-05
马斯克:特斯拉是全球最安全的车 永远不会自燃「特斯拉汽车自燃概率」
5月17日凌晨4点,特斯拉召开2023年股东大会,特斯拉CEO埃隆马斯克谈到了FSD开发进展、新车型研发情况,以及Cybertruck、人形机器人Optimus、推特等话题,还聊到对当前经济环境的看...
日期:05-17
灰豚数据准吗「专帮科技发布全新第二代灰豚数字人ai服务器产品,灰豚T1」
自去年 8 月第 一代灰豚AI数字人服务器产品发布以来。不到一年,温州专帮信息科技有限公司在 2023 年 5 月 18 日这一天又发布了全新第二代灰豚AI数字人服务产品:灰豚T1,二代服...
日期:05-25
小米Civi 3直接上16 1TB 卢伟冰:性能爆发「小米civi深度评测」
快科技5月24日消息,小米宣布Civi 3最高配备16GB超大内存和1TB大容量存储。小米集团卢伟冰表示,这是超越Pro级的硬件规格,也是小米Civi系列首次搭载。小米Civi 3是潮流趋势引领...
日期:05-24
联想s880t「联想s880」
联想S880是一款双卡双待智能手机。该手机于2012年8月发布,属于当时的高端手机产品。下面将从外观设计、屏幕显示、操作系统、性能表现、相机功能、续航能力等方面进行介绍。...
日期:05-30
陈春花最新消息_陈春花将起诉
(原标题:) 7月初,华为公司的一则声明,让管理学学者陈春花数次登上热搜。不到一个月时间里,陈春花先被华为公开撇清关系,后被公众质...
日期:08-20
十代酷睿漏洞「12代酷睿源码泄露 Intel:安全没问题 找到漏洞还有奖」
日前Intel的12代酷睿处理器BIOS源码泄露引发网络热议,网上信息显示文件容量高达6GB,主要用于创建及优化12代酷睿的UEFI BIOS。华为鸿蒙3.0什么时候可以升级考虑到BIOS的重要性...
日期:10-26
小米3哪个处理器好「小米3哪个处理器好用」
小米3是小米科技于2013年推出的一款智能手机,主要针对高端用户。作为当时的旗舰机型,小米3配备了一系列的高端配置,包括处理器、内存、屏幕等方面。在这些配置中,处理器是最重要...
日期:05-29