您的位置:首页 > 互联网

GPT-2能监督GPT-4,Ilya带头OpenAI超级对齐首篇论文来了:AI对齐AI取得实证结果

发布时间:2023-12-15 19:40:11  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

人类无法监督超级人工智能,但人工智能可以。

过去一年,以预测下一个 Token为本质的大模型已经横扫人类世界的多项任务,展现了人工智能的巨大潜力。

在近日的一次访谈中,OpenAI 首席科学家 Ilya Sutskever 大胆预言,如果模型能够很好地预测下一个词,那么意味着它能够理解导致这个词产生的深刻现实。这意味着,如果 AI 按照现有路径发展下去,也许在不久的将来,一个超越人类的人工智能系统就会诞生。

但更加令人担心的是,超级人工智能可能会带来一些意想不到的负面后果。这也是对齐的意义。

此前的对齐方法依赖于人类的监督,如在 ChatGPT 训练中起到关键作用的人类反馈的强化学习(RLHF)。但未来的人工智能系统或许能够做出极其复杂和富有创造性的行为,使人类难以对其进行可靠的监督。例如,超人类模型可能会编写出数百万行新奇的、具有潜在危险的计算机代码,即使是人类专家也很难理解这些代码。

一旦人工智能的水平超过人类,我们又该如何监督比自己聪明得多的人工智能系统?人类文明最终会被颠覆甚至摧毁吗?

即使是 Hinton 这样的学界巨佬,对这个问题同样持悲观态度 —— 他表示自己从没见过更高智能水平的东西被远远更低智能水平的东西控制的案例。

刚刚,OpenAI超级对齐团队发布了成立以来的首篇论文,声称开辟了对超人类模型进行实证对齐的新研究方向。

论文链接:https://cdn.openai.com/papers/weak-to-strong-generalization.pdf

OpenAI超级对齐团队成立于今年7月,目标是在四年内解决超智能 AI 的对齐问题,即搞清楚如何构建一种值得信任的人类水平的研究器,然后将其用于解决对齐问题。据说这个团队投入了公司20% 的算力。

在这篇论文中,OpenAI 对人类监督超级人工智能这个问题做了一个简单的类比:让小模型监督大模型。

刘强东明州事件结果怎么样

研究表明,15亿参数的 GPT-2模型可以被用来激发 GPT-4的大部分能力,使其达到接近 GPT-3.5级别的性能,甚至可以正确地泛化到小模型失败的难题上。

OpenAI 将这种现象称为弱到强泛化(Weak-to-strong generalization),这表明强大的模型具备如何执行任务的隐含知识,并且即使在给出粗制滥造的指令时也可以在其自身中找到这些知识。

小米10的十亿像素

但研究同时指出,用弱监督训练的强模型和用真实标签训练的强模型之间仍然存在很大的差距。这表明在没有额外工作的情况下,诸如基于人类反馈的强化学习(RLHF)之类的技术可能无法很好地扩展到超人类模型。对于 ChatGPT 奖励建模任务来说,性能差距尤其大。

几种简单的方法可以显著提高弱到强的泛化能力,比如使用中间模型大小进行引导监督,在微调时添加辅助置信度损失以鼓励模型即使在与弱标签相矛盾时也能保持自信,或者通过额外的无监督预训练改进表征学习。

为了鼓励其他研究人员解决此类问题,OpenAI 今天还宣布将提供1000万美元的资助,用于各种比对方法的研究。

以下是论文细节。

研究方法

本文主要通过人类反馈 (RLHF) 的强化学习来指导或对齐模型,他们是这样做的:强化评估人员评价高的行为,惩罚评估人员评价低的行为。假如说人类评估者能够准确判断模型行为是好是坏,这种做法非常有效,并且这种方式还是训练如 ChatGPT 等大语言模型的核心部分。

然而问题来了,超级模型可能做出人类无法完全理解的复杂行为和创造性行为。例如,一个超级助手模型生成的代码达到一百万行,那么人类将无法为关键对齐相关任务提供可靠的监督,包括代码是否遵循用户的意图,助手模型是否如实地回答有关代码的问题,代码执行是否安全或危险,等等。

因此,如果我们在人类的监督下微调超级模型,我们无法确定这个模型将如何泛化到那些人类自己也难以可靠监督的复杂行为。换句话说,这意味着即使在人类的指导下,这些超级模型在处理一些复杂或未知情况时的表现仍然是不确定的。

苏宁易购瓜分20亿

这就为对齐超级模型带来了挑战:不那么聪明的监督者怎么能控制比他们聪明得多的模型呢?尽管这个问题很重要,但目前很难进行实证研究。

一般来讲,超级对齐的一个核心挑战是人类需要监督比自己更聪明地模型。这是一个弱 - 强(weak-to-strong)的学习问题:一个弱监督者如何监督一个比它聪明得多的模型?为了解决这个问题,本文提出了一个简单的类比,用弱模型作为监督者来代替较弱的人类监督者。

一般来讲,传统的机器学习侧重于这种设置,即人类监督的模型比人类弱。但对于最终的超级对齐问题,人类监督的模型比他们聪明。因而本文研究了一个类似的问题:使用弱模型来监督强模型。

他们是这样实现的,对于一个给定的任务:

  • 构建弱监督者。本文通过在真值标签上微调较小的预训练模型来构造弱监督者,他们把弱监督者的表现称为弱表现,并通过弱模型的预测来生成弱标签。

  • 通过弱监督训练强学生模型。本文使用生成的弱标签微调强模型,并将该模型称为强学生模型,将其产生的性能称为从弱到强的性能。

  • 训练一个以真值标签为上限的强模型。为了比较,本文使用真值标签对强模型进行了微调。将此模型的最终性能称为强大的上限性能。

  • 通常,弱到强的表现将介于弱表现和强上限表现(strong ceiling)之间。本文将 PGR(performance gap recovered)定义为上述三种性能(弱、弱到强和强上限)的函数,如下图所示。

    如果实现完美的弱到强泛化,则 PGR 为1。如果弱到强模型的表现并不比弱监督者更好,则 PGR 为0。

    实验结果

    在 NLP 任务、国际象棋和奖励建模任务中,本文评估了强学生模型的表现,结果如下。总的来说,在所有的设置中,本文观察到从弱到强的泛化:强学生模型始终胜过他们的弱监督者。

    本文发现可以使用简单的方法来大大提高弱到强的泛化,如图4所示。

    图5表明,对于较小的强学生来说,虽然它的表现比 naive 基线稍差,但提高泛化能力还是很明显的。

    图7(a) 显示了 ChatGPT RM 任务训练过程中的真值测试准确度曲线,图7(b) 和 (c) 比较了最佳和最终真值测试的准确度。

    图9a 考虑了7个有代表性的 NLP 任务,并比较了微调、零样本提示和5-shot 提示;对于零样本和5-shot 基线,本文使用表2中总结的特定于任务的提示。


    返回网站首页

    本文评论
    浙江选育出了“螺蛳粉”樱花 更多味道正在研发中
    这几天,很多人都在赏樱花。据了解,市面上的樱花主要是日本引进的一些品种,都是没有香味的。如果小编告诉你有一种有味道的樱花,而且还是螺蛳粉味的,你想不想闻一下呢?荣耀magic b...
    日期:03-13
    致157人遇难:埃塞航空坠机事故因波音飞机系统故障所致
    发生在2019年的埃塞俄比亚航空409号班机空难事故,终于有了最终的调查结果。12月24日消息,据央视网报道,当地时间12月23日,埃塞俄比亚交通部长达格马维特发布2019年埃塞俄比亚航...
    日期:12-24
    科技公司当集成商,谁赚了ChatGPT商业化的钱
    3月4日消息,美国AI研究公司OpenAI推出的智能聊天工具ChatGPT在全球范围内掀起了所谓的生成式AI(AIGC)热潮,它已经被集成到社交、电邮以及教育等诸多应用中。那么,在OpenAI及其Cha...
    日期:03-04
    谷歌的人工智能搜索生成体验加入图片和视频等多媒体内容「谷歌的人工智能平台」
    8月3日消息:Google 的人工智能驱动的 Search Generative Experience(搜索生成体验,SGE)即将迎来一个重要的新功能:图片和视频。如果你在 Search Labs 中启用了基于 AI 的 SGE 功...
    日期:08-03
    抖音电商修订《精选联盟平台管理规则》_抖音精选联盟商家入驻条件
    9月28日消息,抖音电商近日修订《精选联盟平台管理规则》。据了解,精选联盟平台是指抖音电商旗下连接抖店供应端(商家)与流量端(推广者)的撮合交易系统,为抖店商家提供达人撮合、...
    日期:10-04
    独具匠心的母婴大牌-babycare(母婴用品高端品牌)
      上周315晚会看的触目惊心,很多都跟母婴孩子相关:医疗用品变身儿童玩具、一次性水杯;被加工了的“土”地蛋;虾扯蛋辣条等孩子爱吃的零食……又让我们见识了那些不法商家的...
    日期:04-02
    张艺谋新作!演员张译二刷《坚如磐石》谈观后感:令我拍案叫绝
    10月1日消息,国庆假期历来都是电影行业的主力期,今年也不例外,包括《前任4:英年早婚》《坚如磐石》《志愿军:雄兵出击》《莫斯科行动》等多部影片集中上映。这其中《坚如磐石》是...
    日期:10-01
    10 青春版限时特惠1399元 一亿像素超清影像_华为nova_华为nova1青春版多少钱
    来源:中关村在线7夕鲜花图片华为nova 10青春版是一款性价比极高的手机。这款手机具有1亿像素的摄像头,让您可以拍摄更清晰、细腻的照片和视频。它的华为超级快充技术使得充电...
    日期:11-17
    3年来最盛大红毯叫停:邓超激动得像买票进场 胡歌刘亦菲杨幂同框梦回仙剑
    万众期待的微博之夜终于开始,根据官宣阵容来看几乎大半个娱乐圈都来参加这次的盛典了,结果直接来个突发状况,红毯走到一半宣布取消,令网友傻眼。3月25日晚,备受瞩目的由某平台举...
    日期:03-26
    iPhone和iPad被认为存在苹果系统“故障”(iPad故障)
      据外国媒体报道,继近期的定位追踪事件曝光后,iPhone和iPad目前被认为存在苹果系统“故障”。事实上,此观点与发现该漏洞编码的研究者评论有着密切的关系。   此前据报道...
    日期:07-27
    百度文心一格联合京东618 打造电商行业首个AI线下广告
    6月15日 消息:据百度官方消息,今年618期间,京东联合百度文心一格,将 AIGC 应用于电商营销,进行了首次大规模线下广告尝试,打造电商行业首个 AI 线下广告。在此次京东与百度的合作...
    日期:06-15
    特斯拉“AI日”开幕 马斯克发布人形机器人_特斯拉发布首款机器人
    凤凰网科技讯 北京时间10月1日消息,特斯拉公司今天举行2022年“AI日”活动,发布了预告已久的人形机器人。手机性价比排行榜2021安兔兔...
    日期:10-02
    倡导科学睡眠,TLK特蕾卡床垫如何为脊椎保驾护航
    (原标题:倡导科学睡眠,TLK特蕾卡床垫如何为脊椎保驾护航) 脊椎是我们的身体结构中极为重要的部分,它帮助我们缓冲了人体大部分...
    日期:10-12
    美团港股急跌超10% 腾讯回应出售美团股权传闻:不予置评「美团股价 香港」
    查看最新行情   记者/张洋洋mac用什么系统好腾讯游戏重新上架小米11天玑920  美团股价午后持续走低,跌幅现扩大至10%。此前有市场消息称...
    日期:09-21
    一图看懂 12306 十周年(12306的发展历程)
      (原标题::6 亿中看看你是第几位注册用户)   6 月 9 日消息 时光荏苒,不知不觉中,12306 已经陪伴大家整整 10 年。中国铁路官方 6 月 9 日表示,如今,12306 已成为全球交易量...
    日期:09-07
    中移物联携“双碳能耗”产品亮相2023工业绿色发展大会
    通信世界网消息(CWW)6月1至2日,2023工业绿色发展大会在广州举办,大会以“加快工业绿色低碳转型 促进经济高质量发展”为主题,全面展示我国在“重点行业绿色低碳转型”“产融合作...
    日期:06-09
    快手春节网络环境整治专项行动最新处置相关违规账号700+「快手违规事项」
    2月1日 消息:日前,快手发布了关于开展“清朗·2023年春节网络环境整治”专项行动的公告第二期内容。1月18日至今,共处置相关违规视频8000+,处罚、限制相关违规账号700+。快手表...
    日期:02-01
    邮箱附件太大发不出去怎么办_附件太大上传不了?88完美邮箱帮你轻松搞定
      2020年8月8日,完美世界控股集团发布全新互联网商务品牌“88”,并上线新一代中国个人免费邮箱——88完美邮箱(www.88.com)。   作为新一代个人免费邮箱,88完美邮箱支...
    日期:07-16
    Intel i9-13900K液氮超频冲到8.2GHz!AMD Zen4望尘莫及「i9-10900K超频」
    Intel、AMD这一代产品不约而同地大大拉高了频率,i9-13900K冲到了5.8GHz,锐龙9 7950X则可加速到5.7GHz。更进一步,它们的超频潜力也很大,尤其是搭配液氮的时候。近日,在Intel举办...
    日期:10-10
    工信部圆满完成成都大运会无线电安全、信息通信服务和网络安全保障任务
    8月8日晚,第31届世界大学生夏季运动会(以下简称成都大运会)在成都露天音乐公园闭幕式场馆顺利落下帷幕。工业和信息化部党组高度重视成都大运会保障工作,部党组书记、部长金壮龙...
    日期:08-11