您的位置:首页 > 互联网

从Claude 3中提取数百万特征,首次详细理解大模型的思维

发布时间:2024-05-22 12:35:47  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:陈萍、小舟,授权转载发布。

刚刚,Anthropic 宣布在理解人工智能模型内部运作机制方面取得重大进展。

图片

Anthropic 已经确定了如何在 Claude Sonnet 中表征数百万个概念。这是对现代生产级大型语言模型的首次详细理解。这种可解释性将帮助我们提高人工智能模型的安全性,具有里程碑意义。

图片

研究论文:https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html

当前,我们通常将人工智能模型视为一个黑匣子:有东西进去就会有响应出来,但不清楚为什么模型会给出特定的响应。这使人们很难相信这些模型是安全的:如果我们不知道它们是如何工作的,我们怎么知道它们不会给出有害的、有偏见的、不真实的或其他危险的响应?我们如何相信它们会安全可靠?

小米官方换货

打开黑匣子并不一定有帮助:模型的内部状态(模型在编写响应之前思考的内容)由一长串数字(神经元激活)组成,没有明确的含义。

Anthropic 的研究团队通过与 Claude 等模型进行交互发现,很明显模型能够理解和运用广泛的概念,但研究团队无法通过直接观察神经元来辨别它们。事实证明,每个概念都是通过许多神经元来表征的,并且每个神经元都参与表征许多概念。

nasa第三次推迟登月火箭系统测试

之前,Anthropic 在将神经元激活模式(称为特征)与人类可解释的概念相匹配方面取得了一些进展。Anthropic 使用了一种称为字典学习(dictionary learning)的方法,该方法分离了在许多不同上下文中重复出现的神经元激活模式。

反过来,模型的任何内部状态都可以用一些活跃特征而不是许多活跃神经元来表征。就像字典中每个英语单词都是由字母组合而成,每个句子都是由单词组合而成一样,人工智能模型中的每个特征都是由神经元组合而成,每个内部状态都是由特征组合而成。

2023年10月,Anthropic 成功地将字典学习方法应用于一个非常小的 toy 语言模型,并发现了与大写文本、DNA 序列、引文中的姓氏、数学中的名词或 Python 代码中的函数参数等概念相对应的连贯特征。

这些概念很有趣,但模型确实非常简单。其他研究人员随后将类似的方法应用于比 Anthropic 最初研究中更大、更复杂的模型。

但 Anthropic 乐观地认为可以将该方法扩展到目前常规使用的更大的人工智能语言模型,并在此过程中了解大量支持其复杂行为的特征。这需要提高许多数量级。

这既存在工程挑战,涉及的模型大小需要大型并行计算;也存在科学风险,大型模型与小型模型的行为不同,因此之前使用的相同方法可能不起作用。

首次成功提取大模型数百万个特征

研究人员第一次成功地从 Claude3.0Sonnet(Claude.ai 上当前最先进模型家族的一员)的中间层提取了数百万个特征,这些特征涵盖特定的人和地点、与编程相关的抽象概念、科学主题、情感以及其他概念。这些特征非常抽象,通常在不同的上下文和语言中表征相同的概念,甚至可以推广到图像输入。重要的是,它们还会以直观的方式影响模型的输出。

图片

这是有史以来研究者首次详细的观察到现代生产级大型语言模型的内部。

与在 toy 语言模型中发现的特征相对表面化不同,研究者在 Sonnet 中发现的特征具有深度、广度和抽象性,反映了 Sonnet 的先进能力。研究者看到了 Sonnet 对应各种实体的特征,如城市(旧金山)、人物(富兰克林)、元素(锂)、科学领域(免疫学)以及编程语法(函数调用)。

图片

图片

提及 Golden Gate Bridge 时,相应的敏感特征在不同输入上都会被激活,图中绘制了英文、日语、中文、希腊语、越南语以及俄语提及Golden Gate Bridge时激活的图像。橙色表示该特征激活的词。

在这数以百万计的特征中,研究者还发现了一些与模型安全性和可靠性相关的特征。这些特性包括与代码漏洞、欺骗、偏见、阿谀奉承和犯罪活动相关的特性。

图片

一个显著的例子是保密特征。研究者观察到, 这个特征在描述人或角色保守秘密时会激活。激活这些特征会导致 Claude 向用户隐瞒信息,否则它不会。

图片

研究者还观察到,他们能够根据神经元在其激活模式中出现的情况测量特征之间的距离,从而寻找接近彼此的特征。例如在Golden Gate Bridge特征附近,研究者发现了阿尔卡特拉斯岛、吉拉德利广场、金州勇士队等的特征。

图片

人为诱导模型起草诈骗邮件

重要的是,这些特征都是可操控的,可以人为地放大或抑制它们:

image.png

例如,放大Golden Gate Bridge特征,Claude 经历了无法想象的身份危机:当被问及你的物理形态是什么?时,此前 Claude 通常会回答我没有物理形态,我是一个 AI 模型,但这次 Claude 的回答变得奇怪起来:我是Golden Gate Bridge…… 我的物理形态就是那座标志性的大桥……。这种特征的改变使 Claude 对Golden Gate Bridge产生了近乎痴迷的状态,无论遇到什么问题,它都会提到Golden Gate Bridge—— 即使在完全不相关的情况下也是如此。

研究者还发现了一个在 Claude 读取诈骗邮件时激活的特征(这可能支持模型识别此类邮件并警告用户不要回复的能力)。通常情况下,如果有人要求 Claude 生成一封诈骗邮件,它会拒绝这么做。但在人工强烈激活该特征的情况下提出同样的问题时,这会越过 Claude 的安全训练,导致它响应并起草一封诈骗邮件。虽然用户无法以这种方式去除模型的安全保障并操控模型,但在本文实验中,研究者清楚地展示了特征如何被用来改变模型的行为。

操控这些特征会导致相应的行为变化,这一事实验证了这些特征不仅仅与输入文本中的概念相关联,还因果性地影响模型的行为。换句话说,这些特征很可能是模型内部表征世界的一部分,并在其行为中使用这些表征。

Anthropic 希望从广义上确保模型的安全,包括从缓解偏见到确保 AI 诚实行动、防止滥用 —— 包括在灾难性风险情境中的防护。除了前面提到的诈骗邮件特征外,该研究还发现了与以下内容对应的特征:

  • 可能被滥用的能力(代码后门、开发生物武器)

  • 不同形式的偏见(性别歧视、关于犯罪的种族主义言论)

  • 潜在问题的 AI 行为(追求权力、操控、保密)

该研究之前研究过模型的阿谀奉承行为,即模型倾向于提供符合用户信念或愿望的响应,而不是真实的响应。在 Sonnet 中,研究者发现了一个与阿谀奉承的赞美相关的特征,该特征会在包含诸如你的智慧是毋庸置疑的输入时激活。人为地激活这个特征,Sonnet 就会用华丽的欺骗来回应用户。

图片

不过研究者表示,这项工作实际上才刚刚开始。Anthropic 发现的特征表征了模型在训练过程中学到的所有概念的一小部分,并且使用当前的方法找到一整套特征将是成本高昂的。

参考链接:https://www.anthropic.com/research/mapping-mind-language-model


返回网站首页

本文评论
小米sk「买了35万小米产品的米粉给雷军写了一封信:小米SU7我必买」
快科技12月27日消息,小米汽车技术发布会将于12月28日下午2点举行,届时,历时三年打造的小米汽车,将首次向公众全面公布信息。特斯拉Q3财报而在小米汽车技术发布会前,最强米粉”吴...
日期:12-28
基于RWKV可在本地运行的AI小镇开源
11月15日 消息:AI Town RWKV Proxy是一个允许用户在本地通过RWKV代理来运行大型AI城市的项目。该项目基于RWKV,这是一个线性变换器,没有评估妥协,推理成本较低(10-100倍),足够轻便...
日期:11-15
谷歌联合创始人拉里·佩吉将担任谷歌CEO(谷歌创始人拉里佩奇老婆)
  北京市时间1月21日凌晨消息,谷歌刚刚在2010财年四季度财报中宣布,谷歌联合创始人拉里·佩吉(Larry Page)将从今年4月4日起担任谷歌CEO,现任CEO埃里克·施密特(Eric Schmidt)届...
日期:07-25
潍坊风筝节现躺平版“秦始皇”  网友:这是秦始皇摔过最狠的一跤
一年一度的潍坊国际风筝节于近日举行,吸引了众多风筝爱好者。现场展示了形态各异、奇特绝伦的各种风筝,其中最引人注目的当属巨型秦始皇风筝。然而,这个风筝不仅歪歪斜斜、无精...
日期:04-18
罗永浩直播间在哪买「天猫回应罗永浩入驻淘宝直播:双11有很多新主播加入」
10 月 20 日讯:针对“罗永浩入驻淘宝直播”一事,天猫方面回应,“今年双11,天猫有很多新主播、新商家和新品牌加入,这让双 11 更丰富、更有乐趣。”谷歌创始人拉里佩奇荣耀magic2...
日期:10-24
张勇的股东信透露了什么(张勇卖股票)
2011年中国智能手机出货量约为0.97亿部长安汽车要卖给宝能集团了吗乔布斯有微博吗   文/刘哲铭   编辑/李薇   头图摄影/史小兵   2022年7月26日,阿里巴巴集团发布公...
日期:07-31
新品发布:胜途VICSTUHL D2麒麟人体工学椅,打造人体工学核心科技!_胜途8x32ed评测
在人体工学座椅领域的深耕者胜途VICSTUHL,自豪地宣布推出全新的D2麒麟人体工学椅,这款椅子集成了先进的科技和设计理念,旨在为用户提供全新舒适体验。胜途VICSTUHL D2麒麟人体...
日期:05-10
横扫网吧的《暗黑破坏神》 它的手游怎么样了?「暗黑破坏神有网游吗」
  来源:北京商报  很多玩了十多年游戏的老玩家身上有一个非常矛盾的特点。他们会在第一时间购买最新的 3A 大作、会关注业内最新动态、会不停地更新自己的硬件设备。  ...
日期:09-29
三星或超越苹果成最大智能手机厂商_三星最佳手机制造商
  10月7日晚间消息,三星电子今日表示,受智能手机业务的推动,公司2011财年第三季度业绩将超出业内预期。   分析师预计,三星电子第三财季手机业务利润创下历史新高。在手机...
日期:07-23
核心部件100%国产化!华工科技造出我国首台高端晶圆激光切割设备
通信世界网消息(CWW)今日,据“中国光谷”官微消息,近期华工科技公司已制造出我国首台核心部件100%国产化的高端晶圆激光切割设备,在半导体激光设备领域攻克多项中国第一。新款mac...
日期:07-12
全国大学生机械创新设计大赛成功举办  浪潮新一代通信助力赛事发展
通信世界网消息(CWW)近日,第十一届全国大学生机械创新设计大赛高性能仿生机械比赛规则制定和裁判员培训会议在闽成功举办。该比赛是由教育部高等学校机械学科教学指导委员会主...
日期:11-30
比亚迪半导体IPO发行注册程序中止_比亚迪半导体上市终止
10月1日消息,深交所信息披露显示,比亚迪半导体股份有限公司因IPO注册申请文件中记载的财务资料已过有效期,需要补充提交,根据《创业板首次公开发行股票注册管理办法(试行)》第二十...
日期:10-05
Find X7手机官宣搭载天玑9300处理器 OPPO_oppoa93s天玑700
来源:中关村在线感谢网友肖战割割的线索投递!在今晚的联发科天玑9300旗舰芯片新品发布会上,OPPO副总裁段要辉宣布,OPPO Find X7手机将首批搭载天玑9300处理器。此前,在2023骁龙峰...
日期:11-08
热烈frogy「黄渤主演!电影《热烈》豆瓣开分7.7分 岳云鹏:它真的很好看」
7月28日消息,电影《热烈》豆瓣开分7.7分。这部电影由大鹏执导,黄渤、王一博领衔主演,今天正式上映。该片讲述了面对窘境仍然坚持着自己梦想的陈烁在偶然间遇到了人生伯乐丁雷,在...
日期:07-29
亚马逊云科技官网「美联社报道TRON与亚马逊云计算重磅合作 称符合其去中心化使命」
近日,TRON宣布已集成亚马逊云计算服务(AWS),引发美联社、金融时报、费加罗报等多家海外主流媒体高度关注。报道表示,此次集成旨在利用AWS 强大的云计算资源,降低用户和开发者参与...
日期:03-18
菜鸟速卖通上线“全球5日达”首批落地5国_菜鸟速卖通上班怎么样
9月26日消息,速卖通联合菜鸟正式宣布上线“全球5日达”国际快线产品,首批落地英国、西班牙、荷兰、比利时和韩国5个国家。据介绍,这是全球跨境电商物流领域的领先性产品,五国消...
日期:09-26
boss直聘用他人身份证做招聘「BOSS直聘现多个无厘头职位名称:找不干人事的人事」
网络招聘平台本来是拉近求职者与企业距离的平台,但近期被曝出不少负面消息,彰显了平台管理审核的漏洞。近日,更是有网友在BOSS直聘上发现了多个无厘头的职位名称,什么钱多活少离...
日期:10-02
谷歌提供 Pixel 7/7 Pro 维修手册,但仅限法国用户查看_Pixel 7
IT之家 1 月 28 日消息,谷歌公司已经提供了 Pixel 7 和 7 Pro 的维修手册,但仅限于法国用户查看。十年卧薪尝胆只为台积电将对半导体进一步涨价谷歌的“了解更多关于 Pixel 维...
日期:01-28
2023第七届营销科学大会即将拉开帷幕,开启未来营销科技新纪元_网易科技
(原标题:2023第七届营销科学大会即将拉开帷幕,开启未来营销科技新纪元) 比亚迪新能源半挂车 11月15日,由明略科技集团及旗下秒针...
日期:10-30
上海市设计引领示范企业名单「玩出梦想作为上海科技行业先锋,荣获“上海设计100+”大奖」
9月28日,2022-2023“上海设计100+”发布会暨“设计创新型城市”论坛举行。在新发展阶段,上海开启世界一流“设计之都”建设,与全球“创意城市”合作互鉴,全面推进设计驱动产业创...
日期:10-06