您的位置:首页 > 互联网

OpenAI新作署名Ilya,提取1600万个特征看透GPT-4大脑!

发布时间:2024-06-07 21:06:06  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】今天,OpenAI发布了一篇GPT-4可解释性的论文,似乎是作为前两天员工联名信的回应。网友细看论文才发现,这居然是已经解散的超级对齐团队的最后之作。

前两天,OpenAI的一群员工刚刚联名发表公开信,表示自主的AI系统正在失控,呼吁公众提高警惕。

今天OpenAI就甩出了一篇论文来回应。

这篇文章通过逆向工程,为GPT-4做了一次解剖,旨在探索LLM的可解释性。

更让人唏嘘的是,这项新研究由最近刚刚分崩离析的超级对齐团队完成,文章还有Ilya Sutskever和Jan Leike的署名。

论文地址:https://cdn.openai.com/papers/sparse-autoencoders.pdf

文章是发表了,但团队却早已解散。

物是人非,似乎也从另一个侧面说明了,OpenAI在AGI安全方面进行的重大转向。

论文提出,模型的可解释性与AI安全息息相关。

目前我们仍不了解语言模型的内部运作原理,而且它无法被轻易分解为可识别的部分。这意味着无法像推理汽车安全那样推理人工智能安全。

为了理解和解释神经网络,首先需要找到神经计算的构建模块。

然而,语言模型内神经元的激活模式是密集且不可预测的,每次输入都会触发一次激活,而且同时包含了许多概念(concepts)。

不同的是,现实世界的概念非常稀疏——给定上下文,所有概念中只有一小部分是相关的。

这种密集和稀疏的区别启发了稀疏自动编码器(SAE, sparse autoencoders)的概念。对于给定输出,可以识别并提取神经网络中产生这些输出的重要特征(features),类似于人特定情境下进行推理时想到的概念。

SAE提取的特征显示出稀疏的激活模式,即使不施加直接的可解释性激励,也能自然地与人类容易理解的概念保持一致。

LLM的参数中隐式包含了大量的概念,相应地,自动编码器也需要非常大的规模,才能涵盖前沿模型中的所有概念。

由于极端稀疏性,SAE很难扩展为大规模训练,之前的工作主要集中在用小型语言模型训练较小的SAE。

这篇论文的主要贡献在于提供了可靠且可扩展性的训练方法,能够用TopK自动编码器提取LLM中的数千万个特征。

而且,这种可扩展性是平滑且可预测的,与之前的工作相比有更好的规模回报。

训练代码已在GitHub上发布,可以运行在任何语言模型的激活层上。

开源地址:https://github.com/openai/sparse_autoencoder

论文尝试用这种方法分别在GPT-2和GPT-4上训练SAE,并制作了一个可视化工具来检视提取特征的可解释性。

SAE可视化界面:https://openaipublic.blob.core.windows.net/sparse-autoencoder/sae-viewer/index.html

GPT-4训练的SAE包含1600万个潜在变量,在400亿个token上进行训练。

其中有一些较为明显的可解释特征被提取了出来,比如有关人类缺陷、多语言的身份证明文件和涨价、自然灾害等话题。

训练方法

论文在多种LLM上都尝试了训练TopK自动编码器,包括GPT-2small、GPT-4以及一系列有GPT-4类似架构的不同大小的模型。

TopK,或者k-稀疏方法是只保留k个最大的隐变量,将其余变量置零。TopK编码器定义如下:

所有实验中都使用64tokens长度的上下文,选取网络末尾的包含较多特征的一层(但不涉及next token预测任务)的残差流进行训练。

GPT-2small中使用了第8层,也就是整体架构的3/4部分;对于GPT-4类架构,这个比例则是5/6。

训练后,分别使用L0和均方差(MSE)两个指标分别评估稀疏性和重建误差,并与基线模型ReLU自动编码器进行对比。

在规定隐变量数量为32768时,相比ReLU和ProLU,TopK方法在稀疏性和重建性能上实现了更好的平衡,与门控机制相近。

在固定稀疏性时,随着隐变量数目的增加,TopK方法的MSE下降速度也是所有方法中最高的。

变量数量逐渐增长时,也会有越来越多的隐变量在训练过程中的某个时刻完全停止激活,成为死亡隐变量。

消融实验中发现,如果不采取任何缓解措施,死亡隐变量的占比可以高达90%,这会导致MSE大幅恶化,且浪费训练算力。

为了防止隐变量死亡,论文提出了2个训练技巧——

- 将编码器初始化为解码器的转置

- 添加辅助损失AuxK,即使用k个死亡隐变量计算的重构误差(论文戏称为幽灵梯度)

使用这两个方法后,即使是在GPT-4上训练出的有1600万个隐变量的SAE中,也仅有7%的死亡隐变量。

可扩展性

由于论文的主要目的就是提升SAE的可扩展性,因此作者通过改变各种超参数设置,着重探讨了模型这方面的表现。

首先,使用与训练LLM相似的策略,不考虑收敛,在可用计算资源的条件下训练不同规模的SAE,直至达到MSE最优。

下面左图中可以看到,MSE的下降趋势基本符合计算量的幂律分布L(C),尽管其中最小的模型有些偏离。

右图则表示,选取不同的k值时,随着隐变量数量N的增大,MSE的下降趋势基本类似,遵循N和k的联合scaling法则。这体现出模型较好的优化性能和可靠性。

随着k值增加,MSE的下降曲线逐渐陡峭,意味着不可约损失的减少。

但L(N,k)的这种趋势仅在k值较小时成立,若k值过大、接近模型维数,SAE的重建就失去意义了。

下面这张图展示的结果也比较符合直觉——随着语言模型逐渐增大,SAE也需要更多的隐变量才能实现相同的MSE。

评估结果

虽然使用L0和MSE两个指标已经可以很好地评估稀疏性和重建表现,但这并不是模型的最终目标。

我们需要评估SAE提取出特征的质量和可解释性,因此论文提出了以下几种指标:

1. 下游损失:如果将原语言模型残差流中的隐变量替换为自动编码器重建的变量,语言模型的损失表现如何

2. 探测损失:SAE能否恢复我们预期的特征

3. 可解释性:对于SAE提取的隐变量在LM中的激活,是否存在充要的简单解释

4. 消融稀疏性:消除单个隐变量对LM下游得到的logits是否有稀疏影响?

荣耀880处理器

通过这些指标的评估,论文得出的总体结论是,隐变量总数增加会使得SAE表现更好,然而激活的隐变量数量L0产生的影响会比较负责。

下游损失

论文考虑使用KL散度和交叉熵损失衡量语言模型的下游表现,TopK方法在稀疏性和交叉熵两方面可以取得更好的均衡。

对比其他方法,在达到相同的MSE值时,TopK方法带来的交叉熵最低,意味着下游表现最好。

探测损失

为评估探测损失,团队训练了61个1维的logistic探测器,用于检测相应特征是否存在并计算最佳交叉熵(在所有隐变量中)作为探测损失。

结果显示,k值越高,探测损失越低,且TopK模型的性能在各个k值上的表现都优于ReLU。

可解释性

可解释性的量化比较困难。为此,论文借鉴了2023年一篇论文提出的可解释性自动评分方法,打出的分数与召回率相关但不成比例。

由于在这种方法中使用GPT-4计算准确率和召回率过于昂贵,因此评估时作者找了另一种更便宜的模型N2G。

下面这个例子可以更直观地展现N2G的打分机制。

相比ReLU,TopK模型的F1分数更高,召回率总体有1.5×的提升,但准确率稍逊一筹,约为ReLU方法的0.9×。

消融稀疏性

为了评估消融稀疏性,团队独创了一个指标(L1/L2)^2计算向量的稀疏度,来表征每删除一个隐变量时,有多少token受到了稀疏影响。

图6b可以看到,对于有不同隐变量数量的模型,随着L0逐渐提升(模型逐渐稀疏),消融稀疏性也逐渐提升(受到影响的token数量更少)。

理解TopK激活函数

TopK防止激活收缩

L1正则化的一个主要缺点是,它会使所有激活值趋向于零。

而论文提出的TopK激活函数解决了这个问题,因为它不需要L1。

团队使用投影梯度下降法来求解带有正约束的最优激活值。这种优化过程在ReLU模型中通常会增加激活值,但在TopK模型中不会(见图9a),这表明TopK不受激活收缩的影响。TopK模型的优化幅度也比ReLU模型小。

在ReLU和TopK模型中,优化过程显著改善了重建的MSE(见图9b)和下游的下一个token预测的交叉熵(见图9c)。

然而,这种优化只部分缩小了ReLU和TopK模型之间的差距。

渐进恢复

在渐进编码中,即使只传输部分数据,也可以以合理的精度重建信号。

对于自动编码器来说,学习渐进编码意味着通过激活幅度对潜变量进行排序,可以逐步恢复原始向量。

为了研究这一特性,团队在训练后将自动编码器的激活函数替换为TopK(k′)激活函数,其中k′与训练时的k值不同。然后,通过将每个k′值放在L0-MSE平面上进行评估(见图10)。

结果显示,用TopK训练的模型只能在训练时使用的k值范围内提供渐进编码。MSE在稍高于k的值时有所改善,但随着k′的进一步增加,MSE显著变差。

为了缓解这个问题,我们将多个不同k值的TopK损失相加,称为Multi-TopK。比如,使用L(k) + L(4k)/8就可以在所有k′上实现渐进编码。

不过需要注意的是,使用Multi-TopK训练在k值处的表现略逊于单一TopK。

对于用TopK训练的自动编码器,在测试时,TopK和JumpReLU曲线仅在L0低于训练时的L0值时重叠,否则JumpReLU激活效果不如TopK激活。

然而,这种差异在使用Multi-TopK时消失,两条曲线几乎重叠,这意味着模型可以在每个token上使用固定或动态数量的潜变量而不会影响重建效果。对于用ReLU训练的自动编码器,两条曲线也重叠。

有趣的是,有时用低L1惩罚训练ReLU模型并在测试时使用TopK或JumpReLU,比用较高L1惩罚以获得类似稀疏度更有效。

局限性和未来方向

对于OpenAI的这篇研究,东北大学研究AI可解释性的教授David Bau表示,这是令人兴奋的进展。我们需要学习如何更好地理解和审查这些大模型。

这篇论文的主要创新在于,展示了一种更有效的方法来配置小型神经网络,可用于理解大模型的组成部分。但他也指出,这项技术的可靠性仍有提升空间,要使用这些方法来创建完全可以理解的模型解释,还有很多工作要做。

论文最后也对局限性和未来发展方向做出了相关的陈述——

- TopK方法强制使用固定数量的k个潜变量,这可能不是最优的。理想情况下,应该约束潜变量的期望数量E[L0]而不是固定数量L0。

-64个token的上下文长度可能太短,无法展示GPT-4最有趣的行为。

- 优化过程可能有很大的改进空间,例如通过调整学习率、更好的优化器以及更好的辅助损失来防止潜变量失效。

虚拟现实头盔技术

- 可以进一步研究哪些指标最能反映与下游应用的相关性,并深入研究这些应用本身。比如,寻找用于控制行为的向量、进行异常检测、识别电路等。

- 可以进一步研究专家模型(MoE)与自动编码器的结合,这将大大降低自动编码器训练的成本,并使得训练更大规模的自动编码器成为可能。

- 在发现的特征中,特别是在GPT-4中,很多随机激活的特征尚未充分单义化。通过改进技术和扩大规模,这个问题是可以克服的。

- 目前的探测指标噪声较大,可以通过增加任务的种类和提高任务质量来改进。

- 目前选择使用N2G进行自动评估与解释是因为它的计算效率高,但只能捕捉非常简单的模式。之后可以开发更具表现力且成本低廉的解释方法,以提高解释精度。此外,仍没有好的方法来检查解释的有效性。

SAE可以在模型中的某一点找到特征,但这只是解释模型的第一步。我们需要更多的工作来了解模型如何计算这些特征,以及这些特征如何在模型的其余部分的下游使用。

此外,SAE无法捕获原始模型的所有行为。为了完全映射前沿LLM中的概念,我们可能需要扩展到数十亿或数万亿个特征,即使改进了扩展性,如此大的特征规模也将是一个挑战。

希望有一天,可解释性能够提供新的方法来推理模型的安全性和鲁棒性,并通过对强大的AI的行为提供强有力的保证,才能显著增加我们对模型的信任。

参考资料:

https://openai.com/index/extracting-concepts-from-gpt-4/


返回网站首页

本文评论
明天星期六要上班!苹果iPhone用户别忘定闹钟_苹果手机周六闹钟不响
快科技5月10日消息,根据《国务院办公厅关于2024年部分节假日安排的通知》,2024年劳动节5月1日至5日放假调休,5月11日(星期六)需要上班。智慧葡萄园需要提醒的是,iPhone用户今晚一...
日期:05-11
意法半导体 停产「达到10.44亿美元 意法半导体一季度净利润同比大涨39.8%」
集微网消息,据CTimes报道,意法半导体公布了2023年第一季度财报,公司营收为42.47亿美元,较去年同期同比增长19.8%;毛利润为21.1亿美元,较去年同期同比增长27.5%;净利润为10.44亿美元...
日期:09-30
欧美疯抢中国箱包 订单已排到明年:爆发式增长_箱包趋势网
国产箱包,在海外市场火了。据央视报道,统计数据显示,今年1-8月,我国箱包出口总额为1487.1亿元,同比增长30.6%。今年1-5月份,我国箱包出口额127亿美元,在全球市场的占比接近40%。小...
日期:10-14
乐视视频:夹缝生存苦亦甜
  今日,乐视视频宣布 App 图标上新,应用标语变为“夹缝生存苦亦甜”。   谈及更改 App 标语时,乐视视频表示,这些年着实体会到了端妃夹缝生存的辛苦,不过也取得了很多突破...
日期:05-12
中通快递有海运吗「中通出海开店,圆通、韵达跟进布局,快递行业也有K-Pop梦?」
图片来源@视觉中国文 | 音乐先声,作者 | 丁茜雯,编辑 | 范志辉中国快递行业的出海大战,在K-Pop领域开启了新一轮竞争。 在阿里旗下的菜鸟速递与全球速卖通联手推出“全球包裹五...
日期:10-31
腾讯文件传输助手_支持无线传输 腾讯文件管理器试用
  腾讯文件管理器是一款功能全面、易用的Android手机资源管理类软件。体贴的分类设计可以快速的找到音乐、图片、安装包、文档、压缩包等文件,不用再纠结于N级的文件目录,...
日期:07-23
雅迪高端品牌vfly测评_兼顾颜值与质感,雅迪VFLY为年轻用户带来全新身份标签
  知乎上有人问:“大家在哪一刻忽然发现自己已经是个成年人了?”一个高赞回答瞬间戳心:而立之年,和许久未见的朋友聚会,推杯换盏,酒过三巡。有的朋友借着酒劲吹起了牛,挥斥方遒...
日期:06-22
抖音电商好物秒杀频道第一个活动专区「抖音正式上线双11好物节 跨店每满200元减30元」
10月31日 消息:今天,抖音正式上线双11好物节。10月31日至11月11日,消费者打开抖音,在顶部商城栏即可进入“抖音双11好物节”专区。抖音商城推出了跨店每满200元减30元的活动,并...
日期:11-02
专访美国火星学会主席:“人类2030年登上火星”完全可能实现_美国火星载人登陆计划
自人类开启对太空的探索以来,火星这颗神秘的“红色星球”也成了科学家们的探索目标。欧洲航天局指出,探寻外星生命是人类的基本问题,而火星作为太阳系中与地球最相似的行星,是研...
日期:10-12
中国显示器线上销量创一年来新高:小米夺得第2_2021显示器出货量
快科技12月18日消息,洛图科技(RUNTO)最新发布的《中国大陆显示器线上零售市场月度追踪》报告。天猫年货节保价 报告显示,2023年11月,中国大陆显示器线上市场(不含抖快等内容电...
日期:12-18
小红书美妆营销「新榜发布《小红书美妆用户趋势洞察报告》」
(原标题:新榜发布《小红书美妆用户趋势洞察报告》) 目前,小红书上聚集了大量年轻、高知的女性美妆用户,她们倾向于在小红书平...
日期:08-28
“大胃吃播”涉嫌违法 “达人探店”可能构成商业广告-北京市消协
【】4月19日消息,北京市消费者协会官网发布消息称,近期,网络上各种“大胃王”直播引流以及存在虚假夸大宣传的“网络种草”“达人探店”等美食分享行为,不仅涉嫌误导消费者,而且...
日期:10-02
有哪些黑科技亮相?首届上海国际消费电子技术展TechG开幕_上海消费电子展十月TechG消费电子展
凤凰网科技讯(作者|蒋浇) 12月29日消息,今日,首届上海国际消费电子技术展南京(Tech G)在中国南京国际博览中心正式开幕。本次Tech G展会吸引约200多家国内外领先科技企业参展,展示了...
日期:12-30
旧的还够用 单台售价超25亿元-台积电_ASML新型光刻机太贵
5月15日消息,据媒体报道,台积电近日表示,荷兰光刻机制造商ASML的新型光刻机价格过于昂贵,目前不打算采购。卢伟冰的公司台积电高级副总裁张晓强在技术研讨会上评论ASML的最新高...
日期:05-15
马斯克:SpaceX下一代重型运载火箭星舰Starship或下月尝试发射
2月6日消息:据路透社消息,SpaceX创始人兼首席执行官马斯克当日前推特上表示,该公司可能会在3月份尝试发射下一代重型运载火箭星舰Starship。minecraft教育版下载马斯克回复网...
日期:02-06
红米k60什么时候发布「Redmi K60发布会直逼地址 K60系列发布会直播几点开始」
Redmi K60系列手机将在12月27日晚正式发布,该系列将至少发布三款型号Redmi K60E、Redmi K60和Redmi K60 Pro,这里我们来一起看下K60系列发布会时间以及发布会有哪些产品。路特...
日期:12-27
年轻人不爱买iPhone了 原因竟然是在苹果本身「年轻人为什么买苹果手机」
一则女子因为在面试时使用iPhone被质疑23岁的新闻在微博上引起热议。有人持反对意见认为,年轻人不能使用iPhone,也有人持不同观点认为,现在的年轻人已不再使用iPhone。特斯拉mo...
日期:03-30
ChatGPT又一个重磅功能插件系统上线 胡说八道的毛病治好了
作为当前最火爆的AI应死,ChatGPT的功能已经让很多人折服,更可怕的是OpenAI公司还在源源不断开发出新功能,今天就上线了ChatGPT插件系统,不仅开放了订机票、点餐等第三方功能,而且...
日期:03-24
消息称iPad 3将在今年圣诞假期前发布_三月份出新ipad
iPad 3示意图(罗松)北京时间6月4日消息,据国外媒体报道,亚洲调研公司里昂证券日前称,苹果将在今年的圣诞假期之前推出iPad 3。报道援引里昂证券的话称,“虽然大多数供应商目前尚...
日期:07-28
2万元请的滑雪教练不会穿雪鞋  网友:离了个大谱「滑雪不请教练行吗」
新的一年,滑雪的热潮席卷了朋友圈。北京女孩杨子轩发现,随着疫情防控政策的不断优化调整和北京冬奥会的影响,最近一段时间,北京很多雪场的滑雪爱好者纷纷出动。滑雪热带动着对滑...
日期:01-16