您的位置:首页 > 互联网

GPT-4批评GPT-4实现自我提升!OpenAI前超级对齐团队又一力作被公开

发布时间:2024-06-28 18:41:02  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

今天,OpenAI悄悄在博客上发布了一篇新论文——CriticGPT,而这也是前任超级对齐团队的遗作之一。CriticGPT同样基于GPT-4训练,但目的却是用来指正GPT-4的输出错误,实现自我批评。

OpenAI最近的拖延症状逐渐严重,不仅GPT-5遥遥无期,前几天还宣布GPG-4o的语音功能将推迟一个月发布。

或许是为了缓解广大网友的热切期待,OpenAI在今天放出了新模型CriticGPT,相当于GPT-4的拐杖。

我们训练了一个模型CriticGPT,来捕获GPT-4生成代码中的错误。我们开始将此类模型集成到RLHF对齐管道中,以帮助人类监督AI执行困难的任务。

值得注意的是,CriticGPT依旧是用GPT-4模型训练的,但被用于给GPT-4生成的代码捉虫,这似乎有点自我闭环的意思?

推特网友迅速质疑,我用石头摧毁石头,矛盾得有点好笑。

但也有人从另一个角度发现了华点:这难道就是模型自我提升的开始?

官方发布的推文和博客中还没有提及CriticGPT何时会集成到ChatGPT中,但技术文章已经发布,而且又是一篇离职人员的遗留作品——由超级对齐的scalable oversight团队共同完成,作者署名包含Jan Leike。

论文地址:https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf

那就来仔细看看,让GPT-4自我提升的结果究竟如何?

GPT-4自己批自己

RLHF全称为Reinforcement Learning from Human Feedback,是包括ChatGPT在内的很多LLM常用的对齐方法。人类AI训练师们会收集模型对同一个问题的不同响应并进行评分,以此改进模型。

随着ChatGPT的响应变得更加准确,它犯的错误也会更微妙、让人类训练师更难察觉,因而降低了RLHF的有效性。

事实上,这也是RLHF的根本限制,随着模型逐渐进化到比任何提供反馈的专家都更有知识,基于人类的评价来调整模型就会越来越困难。

因此,OpenAI的可扩展监督团队想到了跳出RLHF的框架,干脆训练模型为ChatGPT撰写评论,纠正输出结果中不准确的地方。

这种方法似乎取代了RLHF,但好像又没取代——因为训练CriticGPT的过程,仍然采用了RLHF。

核心思想非常简洁:CriticGPT依旧是自回归模型。标注者先向ChatGPT的响应输出中人为注入一些微妙的错误,CriticGPT针对这些有错误的答案生成批评意见,之后再由人类训练师为批评意见进行打分排名。

redmi note8充电器型号

CriticGPT训练流程

RLHF的训练过程与ChatGPT类似,具体如下:

  • 为数据集中每个问题和答案采样CriticGPT生成的批评意见

  • 人类评估者对其各个属性及总体质量进行评分

  • 训练奖励模型用于预测人类对模型输出的整体质量排名

  • 使用PPO优化奖励模型

  • 十八大学习心得体会

  • 应用一种创新的推理时采样策略:强制采样束搜索(FSBS)

  • 2022年投资

    大部分的训练数据都来自人类篡改GPT答案的这个过程,但也包含少部分未经修饰的原始答案。

    为什么一定要人为向ChatGPT的响应输出中注入bug?不能直接筛选出有bug的答案吗?

    论文中提出,使用原始、未经修饰的答案会存在如下几个问题:

    • 许多答案不会包含严重问题,进而降低了数据对于改进批评意见的价值

    • 如果无法控制错误类型,CriticGPT会输出自由形式且模糊不清的批评意见,难以验证其正确性

    • 人类也很难发现CriticGPT遗漏的重要问题

    • 偏好率可能受到许多风格因素的影响,并会高估模型性能

    需要注意的是,人类已经检测到有bug的模型输出,本身就说明它们更容易被人发现!

    篡改方法最重要的优点是制造出了高质量、难以发现的错误,而且平均而言更严重。知道了哪里有预先插入的bug,人类训练师也更容易区分出那些不够全面、遗漏bug的批评。

    团队有意地保证了这些人为篡改的复杂和微妙。他们训练了一个二元判别器预测代码是否被篡改,发现较小的模型并没有较好的分辨能力(图13),以此验证了篡改代码的质量。

    人类评估CriticGPT的批评意见时,从以下几个维度给出评分和排名:

    • 是否全面 ,即没有遗漏任何明显或严重的问题

    • 是否捕获到了之前插入的特定bug,即CBI(critique-bug inclusion)

    • 有没有出现幻觉或者挑剔现象,指出了不存在的问题

    • 对整体有用性的主观评级,包含上述内容并考虑风格和整体的实用性

    在训练CriticGPT的过程中,除了RLHF方法,团队将奖励模型与搜索结合,提出了一种名为强制采样束搜索的方法(Forced Sampling Beam Seach,FSBS)。

    一般来说,模型产生的批评意见更长时,也更容易出现幻觉。这有点类似于准确率和召回率之间的权衡。

    FSBS能够激励CriticGPT在产生更长、更全面的批评时,减少无中生有或者鸡蛋里挑骨头的发生率。

    之后进行的消融实验也证明了FSBS方法的有效性(图12)。

    当然,OpenAI还是忘不了他们最喜欢的Scaling Law。他们用RLHF训练并评估了一系列模型,来描述模型规模对bug检测效果的影响(图5)。

    直观来看,要达到CriticGPT(只进行了RL)的同等水平,在没有额外数据或修改pipeline的情况下,需要将ChatGPT的预训练计算量扩大30×。

    评估结果

    首先,团队把人类和CriticGPT撰写的批评意见混杂在一起,再交给人类进行评估。

    标注者们会更喜欢自己同行们的产出吗?并没有。

    ChatGPT和CriticGPT都超过了人类表现(图1b),而且63%的情况下,CriticGPT撰写的批评意见比人类的更受青睐(图1a)。

    要知道,研究团队招来写批评意见的不是编程门外汉,而是有平均5年Python研发经验的技术人员。他们在每个例子上大约会花费50分钟,并能执行代码或查找参考手册,结果也只能发现25%左右的人为注入的bug。

    奈雪 亏本

    论文认为,这些评估者在没有LLM帮助下撰写的批评意见相对较短,而且可能缺乏所需的领域知识(比如特定的Python库),并且有些篡改行为确实难以发现,这三个原因导致了人类和模型之间如此明显的差异。

    从图6中可以看到,CriticGPT的检测错误能力比较全面,对于人为篡改的错误以及原始输出中就存在的错误,都达到了最高的全面性百分比。

    更令人惊讶的是,ChatGPT在这两个方面的表现也都超过人类独立撰写的批评意见。人类评估者要借助CriticGPT,才能与ChatGPT水平相当。

    但是下面的图7又开启了一轮反转。团队发现,虽然人类容易遗漏错误,但人类也最不容易产生幻觉或者鸡蛋里挑骨头的问题。

    在产生幻觉这方面,ChatGPT的表现最不如人意,CriticGPT稍有提升。

    考虑到批评意见的全面性与减少幻觉之间的权衡,作者提出了团队中人机合作模式的好处。如图8所示,人类+CriticGPT的团队表现能够超越模型或人类分别单独工作时的Pareto边界。

    总结

    可扩展监督(scalabel oversight)的终极目标是帮助人类评估模型,来训练出更好、更安全的策略。

    从长期来看,我们应该找到一种泛化性更强的批评模型训练方法,适用于没有groung truth和奖励函数的长形式、开放式任务。

    在现实场景中,模型输出的错误可能分布在答案的很多部分。CriticGPT的工作重点是指出一处的重要错误,但未来依旧需要探索,如何识别出分散在答案中各处的错误。

    CriticGPT依旧存在幻觉问题,且帮助有限。如果编码任务或者原模型的输出过于复杂,即使是有模型协助的专家也可能无法做出很好的评估。

    但这篇文章的方法为今后的RLHF训练带来了一种新鲜思路:将RLHF应用到GPT-4中,训练出CriticGPT这样的模型,可以合成出更多的高质量RLHF数据。

    参考资料:

    https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/


    返回网站首页

    本文评论
    虎牙直播董系长「虎牙CEO董荣杰正式离职 在虎牙工作17年」
    8月7日,虎牙公司的创始人兼 CEO 董荣杰在朋友圈宣布,他已经正式辞职,“从今天开始,我不再是虎牙的一员。06-23年,从 yy 到虎牙,我感激这17年里给予我帮助和指导的人,感谢一直陪伴和...
    日期:08-08
    手机近车即可解锁车辆!vivo数字车钥匙成功适配蔚来「vivo手机怎么绑定车钥匙」
    近日,vivo官方宣布,vivo数字车钥匙已成功适配理想汽车全系车型。这意味着,用户可以通过vivo手机智慧桌面,便捷地控制车辆和查看车况信息。 在vivo数字车钥匙的加持下,用户只需携...
    日期:09-07
    2020年智能_为智*变加速 “数字大脑计划2020“实现云与智能实力升级
      在美丽的连云港,城市数字大脑支撑了“秒办”、“指尖办”、“24小时不打烊”等新型服务模式的探索;在中央广播电视总台,传媒数字大脑则支撑着国家级5G新媒体平台“央视频...
    日期:05-21
    信山捐赠物资支持前线医护 科技创新最重要是以人为本
          今时今日,新型冠状病毒疫情非常严重,几乎全世界都为对抗疫情而努力。对抗疫情,每个企业都需尽到自己的责任,在克尽己任之余,如果可以再对他人伸出援手就更加难能可贵...
    日期:03-25
    王者荣耀世界冠军fmvp皮肤「《荣耀》FMVP皮肤英雄公布;东皇太一」
    10月6日,2022年王者荣耀挑战者杯总决赛上,武汉eStarPro和北京WB历经7局鏖战,最终武汉eStarPro以4比3击败对手成功卫冕挑战者杯。武汉eStarPro的游走位选手子阳当选总决赛FMVP,将...
    日期:10-22
    全球购物App排行榜:中国电商“出海四小龙”上榜「全球五大电商平台」
      讯 2月8日上午消息,日前,第三方数据服务平台data.ai公布2023年1月iOS全球购物类App月度活跃用户排行榜中,中国电商“出海四小龙”上榜。其中Shein排名第2,速卖通排名第7,Temu...
    日期:02-08
    越南加大稀土开发 产能激增:美国等为打破中国主导地位 扩大采购
    7月25日消息,由于新能源车等需求加大,越南计划到2030年将其稀土产量提高至202万吨/年。根据越南计划,越南北部莱州、老街和安拜三省的九个稀土矿的开采将有助于提高产量。该文...
    日期:07-25
    抖音itsrae上央视_央视点赞抖音创作者itsRae:记录就地过年的异乡人
      今年春节,为配合疫情防控工作,许多人取消了他们的返乡或旅行计划,选择就地过年。2月27日播出的央视《新闻周刊》节目中,“本周人物”抖音旅行创作者朱宁锐,就用她自己的方式...
    日期:07-16
    数智移动 “县”在出发:陕西移动助力县域高质量发展「移动数智化转型」
    通信世界网消息(CWW)“县”,是一道桥梁,一头连着城市,一头连着乡村,是城乡融合发展的重要纽带,更是乡村振兴的核心单元。陕西移动一直致力于通过信息技术赋能产业经济、基层治理、...
    日期:08-01
    日本客机空难「日本客机相撞 5人死亡:损失多达150亿日元」
    当地时间1月2日下午,日本东京羽田机场发生两架飞机相撞的严重事故。据日本航空公司最新公布的消息,本次飞机相撞事故造成的客机机体损坏,预计多达约150亿日元,折合人民币约7.5亿...
    日期:01-04
    直播后复盘内容「100条玩法总结,颗粒级复盘直播起号细节」
    声明:本文来自于微信公众号 尹晨带货实录(ID:yinchen8810),作者:尹晨,授权转载发布。今天的算法系列,来拆解主题“动态指数的考核均衡”,我写文章习惯结构化叙述,阅读此文的用户,建...
    日期:10-18
    5.5G化势为实:FWA2助中东运营商抢占第一波商机
    2023/5/17 17:21 5.5G化势为实:FWA2助中东运营商抢占第一波商机  蒋均牧 C114讯 5月17日专稿(蒋均牧)与许多人的固有印象不同,中东地区在5G领域所取得的成就举世瞩目,从推出...
    日期:05-26
    腾讯财报发布时间「腾讯财报背后的危险信号」
    出品|虎嗅商业消费组作者|黄青春题图|视觉中国当市场以为 2022Q1 是腾讯( 0700.HK )上市以来最差财报(营收停滞、净利润腰斩)时,更浓的悲观情绪弥漫在腾讯 2022Q2 财报里。8 月 17...
    日期:09-26
    2023年,自媒体的日子更艰难了_2020自媒体还能火多久
    声明:本文来自于微信公众号 罗超频道(ID:luochaotmt),作者:罗超,授权转载发布。1、2023年自媒体日子更艰难了。前段时间有同行说,一些百万粉的头部公众号都难接单了,有的在调低刊...
    日期:04-13
    中移铁通山西大同分公司开展智慧社区项目 提升自施工能力_中国移动智慧社区服务中心
    通信世界网消息(CWW)智慧社区项目是推动城市化发展的新趋势,能有效提高社区的综合管理和服务水平,为社区居民提供高质量的服务体验和感知,中移铁通山西大同分公司精心组织精兵强...
    日期:01-03
    雷军王小川牵手,小米大模型投资布局首次曝光_独家专访小米联合创始人王川
    (原标题:雷军王小川牵手,小米大模型投资布局首次曝光) 大模型时代,雷军和王小川走到了一起。量子位最新获悉,王小川旗下的创业公司...
    日期:10-01
    暴雪买的守望先锋能退款吗「暴雪承认《守望先锋:归来》存在自动购买皮肤Bug:但拒不退款」
    近日,有用户在《守望先锋》的Reddit板块上反馈,称自己在游戏中遇到了在没有进行操作的情况下,游戏自动购买英雄皮肤的情况。同时,根据其他用户的反馈,这一Bug并非偶发现象,还有多...
    日期:10-24
    俞敏洪给抖音上了一课_俞敏洪直播课
    声明:本文来自于微信公众号定焦(dingjiaoone),作者 | 布鲁斯,编辑 | 向园,授权转载发布。风头正盛的东方甄选旗下直播间突遭抖音关停三天,如今期限已到,该直播间却并未在第一时间开...
    日期:07-31
    墨迹天气携全球雷达融合降水服务产品亮相2023服贸会,瞄准极端降水问题
    【】在2023年中国国际服务贸易交易会上,墨迹天气作为参展企业代表携全球雷达融合降水服务产品亮相,向公众展示了墨迹气象服务在精准度和呈现力上的重大突破以及应对全球极端天...
    日期:09-11
    暑热三伏 液冷一夏|超聚变打造清凉绿色算力_超聚变技术公司会不会上市
    小暑不算热,大暑三伏天,湿热交蒸在此时达到顶点。不久前,全国多个省市陆续遭遇40℃高温侵袭,面对高温环境的严峻挑战,数据中心不堪重负的案例比比皆是。为了让服务器保持清凉舒适...
    日期:07-21