您的位置:首页 > 互联网

OpenAI官宣开源Transformer Debugger!不用写代码,人人可以破解LLM黑箱

发布时间:2024-03-12 17:30:17  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】刚刚,OpenAI超级对齐团队负责人官宣开源Transformer调试器。研究人员不用写代码,就能快速探索LLM的内部构造了!

AGI真的越来越近了!

为了确保人类不被AI杀死,在解密神经网络/Transfomer黑箱这一方面,OpenAI从未停下脚步。

马斯克为什么退出推特

去年5月,OpenAI团队发布了一个令人震惊的发现:GPT-4竟可以解释GPT-2的三十万神经元!

网友纷纷惊呼,智慧原来是这个样子。

而就在刚刚,OpenAI超级对齐团队负责人又正式官宣,要开源内部一直使用的大杀器——Transformer调试器(Transformer Debugger)。

简之,研究者可以用TDB工具分析Transformer的内部结构,从而对小模型的特定行为进行调查。

也就是说,有了这个TDB工具,未来它就可以帮我们剖析和分析AGI了!

Transformer调试器将稀疏自动编码器,与OpenAI开发的自动可解释性——即用大模型自动解释小模型,技术相结合。

链接:OpenAI炸裂新作:GPT-4破解GPT-2大脑!30万神经元全被看透

论文地址:https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html#sec-intro

值得一提的是,研究人员不用写代码,就能快速探索LLM的内部构造。

比如,它可以回答为什么模型会输出token A而不是token B,为什么注意力头H会关注token T之类的问题。

因为TDB能支持神经元和注意力头,所以就可以让研究人员通过消融单个神经元来干预前向传递,并观察发生的具体变化。

不过根据Jan Leike的说法,这个工具现在还只是一个早期的版本,OpenAI放出来是希望更多的研究人员能够用上,并且在现有基础上进一步改进。

项目地址:https://github.com/openai/transformer-debugger

工作原理

要理解这个Transformer Debugger的工作原理,需要回顾OpenAI在2023年5月份放出的一份和对齐有关的研究。

TDB工具是基于此前发布的两项研究,不会发布论文

曝怪兽充电计划赴美上市

简单来说,OpenAI希望用参数更大能力更强的模型(GPT-4)去自动分析小模型(GPT-2)的行为,解释它的运行机制。

当时OpenAI研究的初步结果是,参数比较少的模型容易被理解,但是随着模型参数变大,层数增加,解释的效果会暴降。

当时OpenAI在研究中称,限于GPT-4本身设计就不是用来解释小模型行为的,所以整体上对于GPT-2的解释成果还很差。

未来需要开发出能够更好地解释模型行为的算法和工具。

而现在开源的Transformer Debugger,就是OpenAI在之后这一年的阶段性成果。

而这个更好的工具——Transformer Debugger,就是将稀疏自动编码器结合进这个用大模型解释小模型的技术线路中去。

然后再将之前OpenAI在可解释性研究中用GPT-4解释小模型的过程零代码化,从而大大降低了研究人员上手的门槛。

GPT-2Small被看穿了

在GitHub项目主页,OpenAI团队成员通过视频介绍了最新Transformer调试器工具。

与Python调试器类似,TDB可以让你逐步查看语言模型输出、跟踪重要激活并分析上游激活。

进入TDB主页,首先是提示一栏输入——提示和感兴趣的token:

Mary and Johon went to the store, Johon gave a drink to....

那么接下来,就是做一个下一词的预测,需要输入目标token,以及干扰性的token。

最后提交后,便可以看到系统给出的预测下一词候选的对数。

下面的节点表是TDB的核心部分。这里的每一行都对应一个节点,也就是激活一个模型组件。

如果要了解对某个特定提示中非常重要的注意力头的功能,直接点击组件的名称。

然后TDB会打开神经元浏览器 页面,顶部会显示之前的提示词。

联想小新pro14酷睿版上市时间

这里能看到浅蓝色和粉色的token。每个对应颜色的token之下,从后续标记到这个token的注意力会让一个大范数向量(large norm vector)被写入后续token中。

在另外两个视频中,研究人员介绍了TDB的概念,以及其在理解回路中的应用。与此同时,他还演示了TDB如何定性地再现论文中的一个发现。

OpenAI自动可解释性研究

简单来说,OpenAI自动可解释性研究的思路是让GPT-4对神经元的行为进行自然语言解释,然后把这个过程应用到GPT-2中。

这何以成为可能?首先,我们需要解剖一下LLM。

像大脑一样,它们由神经元组成,它们会观察文本中的某些特定模式,这就会决定整个模型接下来要说什么。

比如,如果给出这么一个prompt,哪些漫威超级英雄拥有最有用的超能力? 漫威超级英雄神经元可能就会增加模型命名漫威电影中特定超级英雄的概率。

OpenAI的工具就是利用这种设定,把模型分解为单独的部分。

第一步:使用GPT-4生成解释

首先,找一个GPT-2的神经元,并向GPT-4展示相关的文本序列和激活。

然后,让GPT-4根据这些行为,生成一个可能的解释。

比如,在下面的例子中GPT-4就认为,这个神经元与电影、人物和娱乐有关。

第二步:使用GPT-4进行模拟

接着,让GPT-4根据自己生成的解释,模拟以此激活的神经元会做什么。

第三步:对比打分

最后,将模拟神经元(GPT-4)的行为与实际神经元(GPT-2)的行为进行比较,看看GPT-4究竟猜得有多准。

还有局限

通过评分,OpenAI的研究者衡量了这项技术在神经网络的不同部分都是怎样的效果。对于较大的模型,这项技术的解释效果就不佳,可能是因为后面的层更难解释。

目前,绝大多数解释评分都很低,但研究者也发现,可以通过迭代解释、使用更大的模型、更改所解释模型的体系结构等方法,来提高分数。

现在,OpenAI正在开源用GPT-4来解释GPT-2中全部307,200个神经元结果的数据集和可视化工具,也通过OpenAI API公开了市面上现有模型的解释和评分的代码,并且呼吁学界开发出更好的技术,产生得分更高的解释。

此外,团队还发现,越大的模型,解释的一致率也越高。其中,GPT-4最接近人类,但依然有不小的差距。

以下是不同层神经元被激活的例子,可以看到,层数越高,就越抽象。

稀疏自动编码器设置

OpenAI使用的的稀疏自动编码器是一个在输入端具有偏置的模型,还包括一个用于编码器的具有偏置和ReLU的线性层,以及另一个用于解码器的线性层和偏置。

研究人员发现偏置项对自动编码器的性能非常重要,他们将输入和输出中应用的偏差联系起来,结果相当于从所有激活中减去固定偏差。

研究人员使用Adam优化器训练自动编码器,以使用MSE重建Transformer的MLP激活。使用MSE损耗可以避免多语义性的挑战,用损失加上L1惩罚项来鼓励稀疏性。

在训练自动编码器时,有几个原则非常重要。

首先是规模。在更多数据上训练自动编码器会使特征主观上“更清晰”且更具可解释性。所以OpenAI为自动编码器使用了80亿个训练点。

其次,在训练过程中,一些神经元会停止激活,即使在大量数据点上也是如此。

研究人员于是在训练期间重采样这些死神经元,允许模型代表给定的自动编码器隐藏层维度的更多特征,从而产生更好的结果。

判断指标

怎样判断自己的方法是否有效?在机器学习中可以简单地用loss作为标准,但在这里就不太容易找到类似的参考。

比如寻找一个基于信息的指标,这样可以在某种意义上说,最好的分解是最小化自动编码器和数据总信息的分解。

——但事实上,总信息通常与主观特征可解释性或激活稀疏性无关。

最终,研究人员使用了了几个附加指标的组合:

- 手动检查:特征是否看起来可以解释?

- 特征密度:实时特征数量和触发它们的token的百分比是一个非常有用的指导。

- 重建损失:衡量自动编码器重建MLP激活的程度。最终目标是解释MLP层的功能,因此MSE损耗应该很低。

- 玩具模型:使用一个已经非常了解的模型,可以清晰地评估自动编码器的性能。

不过研究人员也表示,希望从Transformer上训练的稀疏自动编码器中,为字典学习解决方案确定更好的指标。

参考资料:

https://twitter.com/janleike/status/1767347608065106387?s=20


返回网站首页

本文评论
苹果15pro尺寸「iPhone 15 Pro Max就长这样,很舒服,还有你期待许久的新功能」
不出意外的话,苹果将于今年 9 月中旬推出 iPhone 15 系列新机,算下来就剩 3 个月左右的时间了。这代依然是提供 4 款机型,分为 iPhone 15 和 iPhone 15 Plus 两款基础版,以及 iP...
日期:06-09
李楠:现在新能源汽车就是2016年手机 厂商们要往死里卷了_新能源李瑶
快科技12月7日消息,魅族前高管李楠更新了自己的微博,在他看来新能源汽车厂商们往死里卷的时候要来了。我知道你们现在都在看电车,觉得电车是希望。没有错,但是其实现在电车行业,...
日期:12-07
真信仰!用户提前买入RTX 4090:这入手价老黄都要点赞了
下个月才会陆续上市的RTX 4090,有人已经搞到了产品,并且公开售卖,买家真的是要信仰输出吗?现在,一位网友在论坛上分享了在官方解禁前、于线上卖家那里购入的一张Gigabyte GeForce...
日期:09-28
研究100个视频号头部直播间,我找到了下半年的3个趋势_视频号直播机制
声明:本文来自于微信公众号 卡思数据(ID:caasdata6),作者:李浩同学,授权转载发布。最近查看各平台618榜单,发现了一个有意思的现象,美妆护肤品牌在抖音空前“内卷”,去年护肤榜TOP2...
日期:07-04
从模型层面保护AI的安全,AWS背景的连续创业者获3500万美元融资
声明:本文来自微信公众号“阿尔法公社”(ID:alphastartups),作者:阿尔法公社,授权转载发布。AI正被越来越多的企业采用,为他们带来价值,甚至成为一些企业的核心能力。但是,针对AI的...
日期:09-14
华为畅享x6多少钱「华为畅享60X官宣4月17日发!7000mAh超大电池史无前例」
快科技4月11日消息,今日,华为终端官方宣布,华为畅享60X将于4月17日(下周一)与华为nova 11系列一同发布。据了解,华为畅享60X内置7000mAh超大电池,这是华为迄今电池容量最大的一款机...
日期:04-11
原圈科技的躁动“青春期”:连续3年近300%营收增长
  原圈科技CEO韩剑   文 | 马继伟   2013年,消费互联网创业潮兴起之后,一群惠普的技术专家,跃跃欲试,想在2B领域大干一场。他们热血沸腾,信心满满,对未来充满了美好的想象...
日期:12-09
首次全大核CPU!天玑9300安兔兔跑分超205万分:刷新安卓天花板
快科技10月23日消息,今天安兔兔曝光了一款神秘新品跑分,其核心搭载了天玑9300,综合成绩突破了目前的安卓性能天花板,破天荒地达到了205万分。这是安兔兔V10版本有史以来第一次有...
日期:10-23
小网关·大融合新一代ICT融合网关H3C MSR3610-I霸气来袭
  近日微信新功能“拍了拍”走火   路由群里小伙伴们也玩的不亦乐乎   对于刚刚进群的“新人”   大家纷纷拍了拍这款新一代ICT融合网关   H3C MSR3610-I   来...
日期:07-14
华为全场景智慧生活新品发布会「华为智慧生活5大场景」
华为在近日举办了一场“全场景智慧生活新品发布会”,展示了一系列智能产品和解决方案,包括智能手机、笔记本电脑、智能家居设备等,旨在打造更加智慧、便捷、高效的生活方式。智...
日期:05-28
高管离职危机、CEO不靠谱,Stability AI领导地位受到威胁_it高管会
本文要点:1. Stability AI 公司因Stable Diffusion的成功而备受瞩目,但近期面临高管离职和融资困难等问题,导致领先地位受到威胁。2. 公司 CEO Emad Mostaque 因言论夸张和承...
日期:08-08
比亚迪秦plus 4月销量「9.98万的秦PLUS太猛!比亚迪4月各车型销量出炉:一车狂砍4万」
快科技5月4日消息,近日,比亚迪汽车发布了2023年4月份的品牌销量数据,共卖出了210295辆,其中乘用车销量达到了209467辆,同比增长98.6%。4月份,比亚迪纯电动销量达104364辆,同比增81....
日期:05-04
Vision Pro 国行版将到来,最晚在 5 月前亮相_pro vision测评
Vision Pro 来了,五月前!据华尔街见闻从供应链获悉,苹果 Vision Pro 最早将于4月份在中国区发售,“最晚时间不晚于5月。”供应链人士说,“工信部注册流程已接近于完成。首批在华...
日期:02-06
春晚208亿次红包互动 百度为红旗等品牌主开启超级媒体流量池_春晚卫视红包
  随着除夕夜全民最熟悉的背景音“央视春晚”再次开播,拿起手机抢红包也成为了家家户户的“必备操作”。今年,百度作为央视2019春晚独家网络互动平台,共送出4轮红包,8点40分...
日期:07-08
小米集团高层大变动!雷军晒新团队合照:大赞卢伟冰_小米副董事长
今天下午,雷军发布了一份小米集团内部信,宣布了全新的人事调整。其中,卢伟冰晋升为集团总裁,同时晋升王晓雁、屈恒和马骥为集团副总裁,雷军还晒出了调整后新团队的合照。iphone11...
日期:01-04
3699元起!荣耀Magic5系列手机全系降价300元_荣耀magic5g
荣耀 Magic5 系列手机正在电商平台参与活动促销,全系降价 300 元并支持 24 期免息分期。活动时间为7月4日至5日,购买手机还可获赠 Earbuds X3 TWS 耳机(数量有限)。荣耀 Magic5...
日期:07-05
女孩充电被电击内脏受损面临截肢!律师:可向销售方、生产方同时追责
快科技6月25日消息,今日一则女孩充电被电击内脏受损面临截肢的话题引起网友热议。据报道,一女孩在支付宝”中的爱享租”小程序购买了一台苹果手机,结果近日在边充电边玩手机时...
日期:06-25
移远通信推出一站式Matter解决方案,构建智能家居开放新生态_移远通信 百科
通信世界网消息(CWW)近日,全球领先的物联网整体解决方案供应商移远通信宣布,正式推出全新Matter解决方案,从模组、APP、平台、认证、生产五大层面为客户提供一站式服务,赋能智能家...
日期:08-17
丰田在美国投资13亿美元,生产新款三排座纯电SUV_丰田美国车
2月7日消息,美国时间周二,日本汽车制造商丰田宣布,将在美国肯塔基州的一家工厂投资13亿美元,用于生产一款三排座纯电动SUV,以满足美国市场需求。该款车预计将在2025年底至2026年...
日期:02-07
新款小牛电动三轮车_小牛电动发布自动驾驶三轮/跨骑电动摩托车:支持5G
  拉斯维加斯时间1月7日消息,小牛电动于CESS 2020发布全球首款自动驾驶三轮电动摩托车TQi以及小牛电动首款跨骑电动摩托车RQi,两款车均支持5G通讯。   同时,小牛电动提出...
日期:03-19