您的位置:首页 > 互联网

大模型在装傻!谷歌苹果最新发现:LLM知道但不告诉你,掌握知识比表现出来的多

发布时间:2024-10-21 10:03:24  来源:互联网     背景:

声明:本文来自于微信公众号 新智元,作者:新智元,授权转载发布。

大模型的应用历来受幻觉所扰。

这个幻觉可以指代LLM产生的任何类型的错误:事实不准确、偏见、常识推理失败等等。

——是因为大模型学半天白学了吗?并不是。

近日,来自谷歌和苹果的研究表明:AI模型掌握的知识比表现出来的更多!

论文地址:https://arxiv.org/pdf/2410.02707

研究人员在LLM内部表示上训练分类器,以预测与生成输出的真实性相关的各种特征。

结果表明LLM的内部状态编码反映出的真实性信息,比以前认识到的要多得多。

这些真实性信息集中在特定的token中,利用这一属性可以显著提高检测LLM错误输出的能力。

虽说这种错误检测无法在数据集中泛化,但好处是,模型的内部表示可用于预测模型可能犯的错误类型,从而帮助我们制定缓解错误的策略。

研究揭示了LLM内部编码和外部行为之间的差异:可能编码了正确的答案,却生成了不正确的答案。

——简单来说就是,LLM它知道,但它不想告诉你!

LLM在装傻

2018苹果秋季发布会

作者建议将重点从以人类为中心的幻觉解释转移到以模型为中心的视角,检查模型的中间激活。

不同于使用RAG或者依赖更强大的LLM judge,本文工作的重点是仅依赖于模型输出的logits、softmax后的概率和隐藏状态的计算。

错误检测器

第一步是确定真实性信号在LLM中的编码位置。

假设我们可以访问LLM的内部状态(白盒),但不能访问任何外部资源(搜索引擎或其他LLM)。

建立一个数据集D,由N个问题标签对组成,对于每个问题,提示模型生成响应,从而得到一组预测答案。

接下来,比较LLM生成的回答与正确答案,从而构建错误检测数据集(这一部可由AI代劳)。

实验选择了四个LLM:Mistral-7b,Mistral-7b-instruct-v0.2,Llama3-8b和Llama3-8b-instruct。

作者选取了10个跨越不同领域和任务的数据集:TriviaQA、HotpotQA(with/without context)、Natural Questions、Winobias、Winogrande、MNLI、Math、IMDB review sentiment analysis和另一个自制的电影角色数据集。

实验允许无限制地生成响应以模拟现实世界LLM的用法,并贪婪地解码答案。

性能指标

测量ROC曲线下面积以评估错误检测器,这能够反映模型在多个阈值中区分阳性和阴性情况的能力,平衡灵敏度(真阳性率)和特异性(假阳性率)。

错误检测方法

Majority:始终预测训练数据中最频繁的标签。

聚合概率/logits:从之前的研究中选取几种方法,包括计算这些值的最小值、最大值或平均值。

顺灏股价

P(True):通过提示要求LLM评估其生成的正确性时。

Probing:在模型的中间激活上训练一个小分类器,以预测已处理文本的特征,这里使用线性探测分类器对静态token进行错误检测。

作者认为,现有方法忽略了一个关键的细节:用于错误检测token的选择。

研究者通常只关注最后生成的token或取平均值,然而,由于LLM一般会生成长格式响应,这种做法可能会错过重要的部分。

本文中,作者关注表示确切答案的token(EXACT ANSWER TOKENS),它代表了生成的响应中最有意义的部分。

这里将EXACT ANSWER TOKENS定义为,如果修改则会改变答案正确性的token。

实践中,作者使用设置好的instruct模型代劳,来提取确切答案。之后,通过简单的搜索过程确定对应的token。

重点关注4个特定token:第一个确切答案的token及其前一个token、最后一个确切答案token及其后一个token。

作者广泛分析了层和token选择对分类器的激活提取的影响,通过系统地探测模型的所有层,从最后一个问题token开始,一直到最终生成的token。

上图显示了Mistral-7b-Struct中各个层和token关于探测的AUC指标。虽然一些数据集似乎更容易进行错误预测,但所有数据集都表现出一致的真实性编码模式,中后期层通常会产生最有效的探测结果。

通过比较使用和不使用EXACT ANSWER TOKENS的性能,来评估各种错误检测方法,上表展示了三个代表性数据集上的AUC。

不同任务中的泛化

了解错误检测器在不同任务中的泛化能力,对于实际应用程序至关重要。

上图(a)显示了Mistral-7b-instruct的泛化结果,大于0.5的值表示泛化成功。乍一看,大多数热图值超过了0.5,似乎任务之间存在一定程度的泛化。

然而事实上,大部分性能可以通过基于logit的真度检测来实现。图(b)显示了从最强的基于Logit的基线(Logit-min-exact)中减去结果后的相同热图。

这表示检测器的泛化程度很少超过仅依赖Logit所能达到的效果。所以,泛化并不源于真实性的内部编码,而是反映了已经通过logits等外部特征访问的信息。

经过训练的探测分类器可以预测错误,但其泛化能力只发生在需要相似技能的任务(如事实检索)中。

对于涉及不同技能的任务,例如情感分析,探测分类器与基于logit的不确定性预测器效果差不多。

错误类型研究

在确定了错误检测的局限性,并研究了不同任务的错误编码有何不同之后,作者深入研究了单个任务中的错误,根据模型对重复样本的响应对其错误进行分类。

比如,持续生成的相同错误与偶尔生成的错误属于不同类别。

研究人员在T =30的温度设置下,对数据集中的每个样本进行采样,然后分析答案的结果分布。

上图展示了三种代表性的错误类型:

图(4a)中,模型通常会给出正确的答案,但偶尔会出错,这意味着存在正确的信息,但采样可能会导致错误。

图(4b)中,模型经常犯同样的错误,但仍保留了一些知识。

图(4c)中,模型生成了大量错误的答案,整体置信度较低。

分类的标准有三个:生成的不同答案的数量,正确答案的频率,以及最常见的错误答案的频率。

上表显示了所有模型的测试集结果。结果表明,可以从贪婪解码的中间表示中预测错误类型。

检测正确答案

模型的这种内部真实性如何在响应生成过程中与其外部行为保持一致?

作者使用经过错误检测训练的探测器,从同一问题的30个响应中选择一个答案,根据所选答案衡量模型的准确性。

如果这种准确性与传统解码方法(如贪婪解码)没有显著差异,则表明LLM的真实性内部表示与其外部行为一致。

实验在TriviaQA、Winobias和Math上进行,选择probe评估的正确性概率最高的答案。这里比较了三个基线:贪婪解码;从30个候选答案中随机选择;选择生成的最频繁的答案。

结果如上图所示,总体而言,使用探针选择答案可以提高LLM所有检查任务的准确性。但是,改进的程度因错误类型而异。

探针可以有效地识别正确答案的事实表明,LLM的内部编码与其外部行为之间存在重大脱节:即使模型编码了哪个答案是正确的信息,它在实践中仍然可能生成错误的答案。

参考资料:

https://arxiv.org/pdf/2410.02707


返回网站首页

本文评论
调查显示:生成式AI工具撰写的新闻准确性较低,但更及时_调查报告自动生成
划重点:⭐️ 调查显示,人们对由生成 AI 撰写的新闻的信任度较低,但这些新闻可能会更及时,成本更低。⭐️ 研究发现,ChatGPT 是最广为人知的 GenAI 工具,但仅有少数人频繁使用。⭐️ 调...
日期:05-30
华为多款终端产品亮相中国国际信息通信展览会_华为终端 华为技术
通信世界网消息(CWW)第三十一届中国国际信息通信展览会于2023年6月4日至6月6日在北京国际会议中心举办。本次展会华为在主展厅一层结合ICT产品展出手机、平板等智能终端设备,为...
日期:06-06
权威媒体IT168背书,荣耀FlyPods3不到千元的价格可谓“真香”(荣耀flypods和荣耀flypods3)
  噪音一直是我们日常工作中无法避免的一个问题,我们每天从踏出家门的那一刻就要开始要忍受各种各样我们不想听到的声音。喧闹的街道、嘈杂的公共交通以及充斥着噼里啪啦...
日期:06-18
韦乐平:T比特时代需要什么?
韦乐平:T比特时代需要什么? 通信产业网|2023-06-14 12:36:50作者:高超来源:通信产业网【通信产业网讯】(记者 高超)“T比特时代的DSP、光模块基本成熟,传输系统试验也在推进中,但是...
日期:06-14
iPhone14和 iPhone15用户现在可使用 Verizon 的路边援助服务
12月20日 消息:苹果今天宣布,iPhone14和 iPhone15用户现在可以使用 Verizon 的路边援助服务。该服务由 Allstate 旗下的 Signature Motor Club 运营,可在没有移动连接的地区提...
日期:12-20
“4nm、3nm”EUV工艺来了 Intel最先进晶圆厂准备就绪「intel 10nm euv」
随着13代酷睿的上市,Intel的处理器工艺已经切换到了Intel 7节点上,这是Intel 4年掌握5代CPU工艺中的起点,接下来的还有重头戏,不过生产基地会转向海外,由位于欧洲爱尔兰的Fab 34...
日期:11-25
淘天回应强制末位淘汰:改革是要驱动中高层,没强制末位淘汰!
  讯 7月24日晚间消息,淘天集团回应OKR与KPI并行、强制末位淘汰一事称,并未有强制末位淘汰。“改革是一定的也是必需的,方案仍在调研阶段。要广泛听取一线意见,改革的核心,是为...
日期:07-25
加拿大一波音客机在空中被闪电击中:配备避雷装置 成功防雷击_加拿大波音767滑翔迫降
在加拿大温哥华国际机场,当地时间3月3日发生了一起引人注目的事件。加拿大航空公司的一架波音777-300型客机,在准备起飞之际,遭遇了闪电的袭击。据悉,这架飞机上当时载有550名乘...
日期:03-07
上海杭州之间或建世界首条超级高铁 9分钟即可抵达_上海至杭州高铁复线
4月25日,《南华早报》报道称:中国工程和铁路专家认为,在上海和杭州之间修建全球首条超级高铁线路最有可能。这条150公里的真空管道将让磁悬浮列车能够以每小时1000公里的速度...
日期:04-25
比亚迪成2023年欧盟五星安全认证最多品牌:四款车型高分通过
快科技12月28日消息,2023年EURO NCAP新规测试难度拉满,比亚迪旗下四款车型高分通过各项测试并摘取五星,成为23年获最多五星认证的品牌。这四款车型分别为海豚、海豹、宋PLUS EV...
日期:12-28
iPhone 15 Ultra曝光:钛金属+潜望长焦万元起步
iPhone 14还在销售热潮中,iPhone 15就又有新消息来了,正如此前的爆料所说,iPhone 15将同样是四款机型,不过Pro Max将被Ultra取代,各款机型之间的配置差距将进一步拉大。在屏幕方...
日期:11-06
“刷视频赚钱”套路为何屡打不绝_所谓的刷视频赚钱
三星折叠手机新品发布;  李英锋  “边刷视频边赚钱”“轻松日赚百元”……近期,在部分短视频平台、社交媒体平台上经常能看见这样的广告语,推广一些号称可以通过刷视频赚...
日期:09-27
买量玩法做的新产品,流水也能破千万?_买量卖量
声明:本文来自于微信公众号 白鲸出海,作者:B21993,授权转载发布。最近一年,把一些吸量的益智玩法,模仿三消的设计与商业化,做出千万月流水已经有不少成功案例,如之前解绳子的Twisted...
日期:07-30
iqooz9turbo护眼吗更亮更护眼 iQOO,Z9 Turbo搭载旗舰同款C8 护眼屏
来源:中关村在线怎么缝扣子两个孔4月24日19:00,iQOO Z9系列新品发布会正式开始。此次iQOO Z9系列一共包含了三款手机:iQOO Z9x、iQOO Z9以及iQOO Z9 Turbo。iQOO Z9 Turbo此次...
日期:04-24
成都大熊猫基地闭馆「2名游客被终生禁入成都大熊猫基地:投喂竹笋、花生」
8月27日,成都大熊猫繁育研究基地发布关于不文明行为情况的通报,2名游客因私自向大熊猫投喂,被终生禁入。韩某某(男,39岁),8月26日在熊猫基地参观时,于14:20分向幼年大熊猫别墅活动场...
日期:08-28
学生网购小石头收到7斤巨石 画面很荒谬很搞笑:网友笑谈赚了
网购有风险,还是要谨慎的。近日,江苏徐州一学生网购巴掌块小石头作画商家发来一块7斤重大石头,收货后确实让他吃惊不已。当事人徐同学介绍,自己的专业需要用小石头来作画,就从网...
日期:06-02
SpaceX 再次完成火箭“拼车”任务,将 90 个有效载荷送上天_spacex火箭载重
IT之家 11 月 12 日消息,SpaceX 于当地时间周六(11 月 11 日)通过猎鹰 9 号运载火箭完成了 Transporter-9“拼车”任务,火箭一级在升空后约 7.5 分钟返回地面,并于在范登堡完成垂...
日期:11-12
女子称打车爱上司机2年花了400万:已向法院提起诉讼_打车女孩遇害事件
在北京,李女士是一位从事服装生意的女性。2019年3月15日,她因一次网约车经历与司机邓先生相识,并随后发展成为了恋人关系。然而,好景不长,李女士渐渐发现邓先生与其他女性保持着...
日期:03-28
克隆人艾滋病「未来近50% 的人希望有AI克隆能帮他们做这些事」
标题:现在苹果和谷歌的支付系统apple pay划重点:- Windows新界面...
日期:06-11
富士康两颗卫星上天,想在太空领域延续代工模式_富士康nwei
快手消费等级提升规则11月13日消息,鸿海精密(富士康)制造的两颗低地球轨道卫星于上周六搭乘SpaceX火箭,从加利福尼亚州南部的范登堡太空部队基地成功发射。对于这家全球最大的iP...
日期:11-13