您的位置:首页 > 互联网

Post-Training有多重要?AI2研究员长文详解前沿模型的后训练秘籍

发布时间:2024-08-20 15:14:05  来源:互联网     背景:

声明:本文来自微信公众号“新智元”,作者:新智元,,授权转载发布。

越来越多研究发现,后训练对模型性能同样重要。Allen AI的机器学习研究员Nathan Lambert最近发表了一篇技术博文,总结了科技巨头们所使用的模型后训练配方。

随着LLM学界和工业界日新月异的发展,不仅预训练所用的算力和数据正在疯狂内卷,后训练(post-training)的对齐和微调方法也在不断更新。

InstructGPT、WebGPT等较早发布的模型使用标准RLHF方法,其中的数据管理风格和规模似乎已经过时。

最近几个月来,Meta、谷歌和英伟达等AI巨头纷纷发布开源模型,附带发布详尽的论文或报告,包括Llama3.1、Nemotron340B、Gemma2,以及Apple Intellegence的基础模型报告。

从这些披露的信息中,我们可以看到后训练方法的一些前沿变化趋势。Allen AI研究科学家Nathan Lambert最近就这个话题发布了一篇文章。

原文地址:https://www.interconnects.ai/p/frontier-model-post-training

Nathan Lambert博士毕业于UC伯克利,曾在HuggingFace领导RLHF团队,目前是Allen AI的机器学习研究员。

他在文章中指出,合成数据、迭代训练、人类偏好标签和大量过滤,是这些模型所用后训练方法的共同特点。具体来说,新的后训练配方建立在以下预设的基础上:

- 合成数据的质量可能高于人类数据,特别是对于具有挑战性的任务

- RLHF可以比指令微调扩展到更大规模

- 需要多轮训练和生成才能得到最佳模型

- 数据过滤是训练中最重要的部分

这些假设在很大程度上相互交织,构成了可以扩展到大型团队的训练方案,非常适用于科技巨头。文章的具体内容对以上四点分别做出了详细阐释。

新的标准Pipeline

如果我们认为ChatBot Arena分数衡量了模型的后训练表现,这就很大程度上与风格和鲁棒性相关,几乎所有的主要实验室都通过迭代训练获得了显著收益。

我们还没有看到Gemini2或GPT-5发布,它们也许会重置目前的后训练范式,并有可能解锁我们对模型更深层次的控制能力。

但从目前来看,各个顶级实验室所用的方法明显趋同,这种趋势比预期中要清晰得多。

人类偏好数据

最初的RLHF管道的重点是人类数据,主要有两种形式:1)用于对专门任务进行指令微调的人类数据;2)有关任务完成度的人类偏好数据。

这类微调数据集成本高昂且被严格保护,据我所知,唯一的公开的应该只有Lambert在HuggingFace团队时发布的No Robots。

天猫双11明星带货力第一

仓库地址:https://huggingface.co/datasets/HuggingFaceH4/no_robots

人类偏好数据很大程度上与特定模型的改进有关。但即使在数据可以开放的情况下,也不能确定可以将一个模型的偏好迁移至另一个模型。

Lambert在HuggingFace时曾和团队做过类似的尝试,但在小型付费数据合同上失败了。

现在,唯一用到人类数据的方面就是偏好数据。从Llama2披露的数据和其他传闻来看,Meta可能在偏好数据上花费了10M-20M美元,甚至更多。这还仅限于最终发布的模型,不包括更广泛的实验和评估。

Nemotron则使用大量合成数据来替代人类数据,但相对而言,这个模型的微调并不那么出色。

对开放社区而言,有一个迫在眉睫的挑战,但同时也是机遇:弄清这类数据中的人为干预的程度,能否用LLM-as-a-Judge或奖励模型等方法代替。

扩展RLHF

Llama3的对齐负责人Thomas Scialom在播客节目Latent Space上曾说道:

RLHF的可扩展性要高得多。它成本更低、更容易操作,并且通常会带来更好的性能。

他还表示,自己会将100%的对齐数据预算用于RL阶段所需的对齐数据,而不是在指令上花费更多时间。

开源的对齐工作中大多专注于扩展指令微调(IFT,或称为 SFT)。IFT容易操作、适用于多种任务,而且方便与合成数据共同使用。

但很明显,产业界仅将IFT作为扩展RLHF的起点。SFT数据主要关注以前模型未能覆盖的特定领域,然后在此基础上扩展RLHF。

RLHF是一个迭代过程,模型的生成过程可以让它继续改进。Llama2和 Nemotron论文中详细介绍了5轮训练,但我们不知道这个数字是否有上限。

Llama3.1进行了6轮偏好数据的训练,Llama2是5轮,Nemotron是4轮,之前还有多轮指令微调。

对于人类偏好数据而言,进行多轮迭代可能主要出于可行性方面的考量:

1. 数据从注释公司分批传送到实验室

2. 进行多轮小规模的训练可以降低最终产品交付的风险。与其等待所有数据到位后才开始训练,不如让模型逐渐步入正轨

这类现实因素看起来无关紧要,但往往会触发某种行业规范。

下面这张图片来自Llama2论文,记录了5轮拒绝采样和PPO相关的数据。

Nemotron还进行了2轮SFT微调和4轮对齐。其中,RPO是用DPO优化器加权的奖励模型。

类似的迭代RLHF方法可以追溯到Anthropic提出的宪法人工智能,但开源社区似乎没有大规模复现这个结果。

目前,学术界正在关注在线DPO训练,这在方向上是相似的,但对各轮之间数据没有那么关注。这种方法目前仍需要大量手动操作,但一旦实现流程自动化,在线DPO将成为未来。

事实上,各个团队对后训练阶段的算法选择不应该如此一成不变。DPO和PPO各有优劣,前者更容易扩展,但PPO启发的方法(如在线RL)具有更高的性能上限。

目前这些方案主要出于简洁性考量,因为这些团队仍然相对较新并且正在构建模块化系统,Llama3后训练团队中一名成员的说法也证实了这种具备工程简洁性的方法。

Llama3有一个简单的后训练循环:拒绝采样、SFT 和 DPO。这不仅在经验层面有最佳性能,还实现了可复现性。而且,团队可以异步探索许多不同的工作流(例如编码、数学),将数据汇集到同一个简单的循环中。

合成数据

这种新的RLHF循环中,很重要的一环是在大多数任务上超越人类能力的合成指令数据。

如果可以让模型有一点点提升、生成更好的指令,那就重新开始,更新检查点。

Meta在论文中明确表示,他们使用405B模型来提高我们较小模型的后训练质量;谷歌通过蒸馏出Gemini Flash来做到这一点,但实际上大多数前沿模型可能都包含一些类似步骤。

我听说OpenAI正在使用50万亿token的数据训练下一代模型,其中大部分为合成数据。去年有一个传言,Anthropic拥有预训练规模的宪法AI语料库,现在看来这也很合理。

这些AI公司意识到合成数据的重要性应该是在12~18个月之前,当他们不再使用模型输出进行自我迭代训练的时候。但Meta不一样,因为受益于其他更好的开放模型。

看看当今的后训练就可以清楚知道,合成数据造成模型崩溃的问题被过分夸大了。只有在人为设置的环境中,丢弃原始数据、只留下生成的新数据时,才会发生模型崩溃。

数据质量是王道

东风有限责任公司2019年

Llama3.1报告的大部分内容都是关于数据管理的细节,其中每个相关的子领域都需要广泛而具体的管理说明。

这与我所知的OpenAI John Schulman领导的后训练团队以及其他类似团队的工作情况相符——指定一个特定领域,获得相关数据,然后模型就会变得更好。

但如果没有大量的数据过滤和管理,上述的RLHF方法都不起作用。

在Allen AI,我们在后训练流程中开始更加优先考虑数据,可以立即感受到模型提升速度的变化。

案例分析——Nemotron和Llama

Llama的后训练流程如下:

Nemotron的这张图比较简略:

2012款macbookair

综合起来可以看到大多数方法的共同点。

但下面这张图表,以及大多数行业研究论文都忽视了数据。

Llama3.1等模型到报告中有提及了很多细节,比如正则化、对损失函数的调整、模型平均等等,但这些都是模型性能的边际收益,很大程度上超出了核心微调循环的范围。

到了一定的时间节点,这些细节都会变得微不足道。

参考资料:

https://www.interconnects.ai/p/frontier-model-post-training


返回网站首页

本文评论
联通在线荣获第二届“光华杯”信息消费专题赛多个奖项
联通在线荣获第二届“光华杯”信息消费专题赛多个奖项 通信产业网|2023-08-10 16:29:59作者:通文来源:通信产业网【通信产业网讯】近日,以“光融百业 智创未来”为主题的第二届...
日期:08-10
自动驾驶科技公司「自动驾驶公司Cruise计划裁员900人,此前已解雇多位高管」
12月15日消息,美国时间周四,通用汽车公司旗下自动驾驶子公司Cruise确认将裁员900人,占员工总数的24%。这次裁员主要涉及商业运营及相关部门,是Cruise最新的挫折。一天前,该公司解...
日期:12-15
「百度吉利合作造车“集度”之后添“极越”」 二者有何不同?
【】8月15日消息,吉利控股集团官方微信公众号消息,吉利控股集团旗下全新汽车机器人品牌“极越”正式发布。据介绍,“极越”品牌的正式发布,标志着由吉利控股集团、百度集团联手...
日期:09-17
iPhone14真的能救命!实测苹果车祸检测功能:确实很牛!
对于今年苹果新机iPhone14系列的讨论焦点,大多都放在了外观层面,比如灵动岛。但对于其硬件层面和新加入的核心功能,却很少有人关注,苹果在发布会上大肆宣传的两项心功能,一个是卫...
日期:09-27
海信超声入选山东创新工业产品目录_山东省创新工业产品
  近日,海信超声又获殊荣,入选山东省工信厅2021年山东创新工业产品目录。作为山东省第一款具有自主知识产权的超声产品,海信超声HD60填补了山东省空白,已先后入选了山东省“...
日期:07-17
字节跳动薪酬结构研究「字节跳动CEO梁汝波:公司业绩低于预期,将持续“去肥增瘦”」
(原标题:字节跳动CEO梁汝波:公司业绩低于预期,将持续“去肥增瘦”) 36氪获悉,近日,字节跳动CEO梁汝波在公司全员会议上表示,公司会持...
日期:12-21
iPhone15钛金属版本官网降价经销商却加价售卖 客服:价就是这个
近日,据澎湃新闻报道,第三方渠道上的iPhone15 Pro系列1TB蓝色钛金属版本价格比苹果官网便宜了1500元,这一消息引发了网友的热烈讨论。然而,记者调查发现,尽管价格有所下降,但仍有...
日期:10-09
米哈游副总新闻「米哈游近况:蔡浩宇亲自研究AI,刘伟要求严控招聘」
声明:本文来自于微信公众号 游戏葡萄(ID:youxiputao),作者:托马斯之颅,授权转载发布。在《崩坏:星穹铁道》上线之后,不少人都认为米哈游有了新的营收支柱,即将进入稳健的「复制爆...
日期:08-03
通用里的carplay不见了「通用弃用苹果CarPlay:容易使驾驶员分心」
快科技12月14日,很多人对车机系统并没有太大的要求,哪怕是做得很一般,只要支持CarPlay就能打高分,不过并非所有车企都支持使用CarPlay,哪怕是美国品牌。腾讯每日优鲜占股比例飞行...
日期:12-15
618值得买的投影仪推荐,这3款大眼橙投影仪性价比超高_大眼橙投影仪是名牌吗
一年一度的薅羊毛大会已经开始,618大家准备买些什么呢?话说现在投影仪的风很大,不仅便携,而且屏幕大、功能多,可以显著提升居家生活品质和幸福感,非常值得入手体验下。市面上投影...
日期:05-20
华为本月底将召开发布会:折叠屏手机、手表将发布「华为折叠新品发布会的产品」
上个月华为Mate 50系列正式发布,燃起了不少用户的热情,而有消息称华为将在本月底继续召开新品发布会,其中将会上市华为P50 Pocket new手机,新机将以6000元左右的价格发布,再一次...
日期:10-16
孙卓今年高考:妈妈留言感谢学校保护孩子隐私_孙卓是谁
6月1日消息,据国内多家媒体报道,电影《亲爱的》原型孙卓将参加今年高考,妈妈留言感谢学校保护孩子隐私,两年多没有发布孩子照片。孙卓妈妈表示,感谢深圳二高的老师、同学和家长,在...
日期:06-02
火药味渐浓:马斯克将接受Twitter律师询问,他是否会出言不逊?「马斯克道歉」
  讯 北京时间9月27日早间消息,据报道,本周,Twitter律师将会对亿万富豪埃隆·马斯克(Elon Musk)进行询问,了解他为何在7月突然宣布放弃对Twitter440亿美元的收购。  Twitter的...
日期:10-02
我们没有控制OpenAI-微软CEO反驳马斯克
北京时间5月17日上午消息,据报道,微软CEO萨蒂亚·纳德拉(Satya Nadella)在接受采访时表示,有人宣称OpenAI受微软控制,这种说法实际上并不正确。 4月份特斯拉、推特、SpaceX掌门人...
日期:09-28
“中国天眼”FAST 已发现超 740 颗脉冲星「中国天眼新发现脉冲星」
IT之家 2 月 6 日消息,据央视新闻报道,被誉为 “中国天眼”的 500 米口径球面射电望远镜(FAST),已发现超 740 颗脉冲星。美国生产的宝马FAST 总工程师姜鹏表示,截至目前,FAST 发现...
日期:02-06
马斯克又搞投票:“我该继续领导推特吗?”_马斯克再发推特
  讯 北京时间12月19日早间消息,埃隆·马斯克就“是否该继续领导推特”一事在社交媒体发起投票,称将遵守投票结果。iphone手机怎么取消呼叫转移  马斯克还表示,问题不在于...
日期:12-19
干翻Java/C  !Python成最受开发者欢迎编程语言:岗位报酬高居「python做web开发」
快科技5月5日讯,日前,CodeSignal公布了一份工程师报告显示,在被调查的2800多名开发人员中,Python(Python3)是最受欢迎和岗位报酬最高的编程语言。2~6名分别是Java、JavaScript/Nod...
日期:05-07
腾讯连夜确认!组织大调整坐实,马化腾宣布下个20年战略
9月30日消息,在昨夜媒体曝光之后,今天早上,腾讯官方宣布,将进行成立以来的第三次大规模组织架构......
日期:09-30
电商巨头亚马逊将关闭数十个仓库,增长率跌至 20 年来低「亚马逊占市场份额」
IT之家 9 月 4 日消息,咨询公司 MWPVL 表示,在线零售巨头亚马逊正在关闭或放弃在在美国开设 42 家设施的计划,总可用空间近 2500 万平方英尺。彭博社表示,亚马逊还推迟了其他 21...
日期:09-14
中国美丽休闲乡村名单公布:共255个 有你的家乡吗?「全国美丽休闲乡村」
11月14日,农业农村部今天公布了中国美丽休闲乡村推介结果,持续推进农村一、二、三产业融合发展。你是否知道本市开展使用公筷公勺行动经各省遴选推荐、专家评审和网上公示,推介...
日期:11-17