您的位置:首页 > 互联网

拯救被掰弯的GPT-4!西交微软北大联合提出IN2训练治疗LLM中间迷失

发布时间:2024-05-22 14:15:11  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】近日,西交微软北大联合提出信息密集型训练大法,使用纯数据驱动的方式,矫正LLM训练过程产生的偏见,在一定程度上治疗了大语言模型丢失中间信息的问题。

辛辛苦苦给大语言模型输入了一大堆提示,它却只记住了开头和结尾?

这个现象叫做LLM的中间迷失(Lost in the Middle),是大模型当前仍面临的最大挑战之一。

毕竟,LLM现在的上下文长度已经冲到了百万级别,而难以处理中间的信息,会使得LLM在评估大量数据时不再可靠。

其实,我们人类也有类似中间迷失的毛病,心理学上叫Primacy/recency effect,感兴趣的读者可以参见:

https://www.sciencedirect.com/topics/psychology/recency-effect

我怕零点的钟声太响......后面忘了

不过就在不久前,来自西交、微软和北大的研究人员,开发了一种纯粹的数据驱动解决方案,来治疗LLM丢失中间信息的症状:

论文地址:https://arxiv.org/pdf/2404.16811

研究人员认为,Lost in the Middle的原因是训练数据中的无意偏差。

因为LLM的预训练侧重于根据最近的一些token预测下一个token,而在微调过程中,真正的指令又往往位于上下文开始的位置。

这在不知不觉中引入了一种立场偏见,让LLM认为重要信息总是位于上下文的开头和结尾。

基于这样的见解,研究人员提出了信息密集型(INformation-INtensive,IN2)训练方法,来建立数据之间的桥梁。

既然是训练过程造成的偏见,那么就用训练数据来解决。

IN2训练使用合成问答数据,向模型显式指出重要信息可以位于上下文中的任何位置。

整个上下文长度(4K-32K个token),被分为许多128个token的片段,而答案所对应的信息位于随机位置的片段中。

研究人员使用了两种类型的训练问题:一种是要求在一个片段中提供细节,另一种是需要整合和推断来自多个片段的信息。

IN2训练到底效果如何?使用明星模型Mistral-7B来试试。

将IN2训练应用于Mistral-7B,得到了新模型FILM-7B(FILl-in-the-Middle),然后测试为长上下文设计的三个新的提取任务。

测试任务涵盖不同的上下文类型(文档、代码、结构化数据)和搜索模式(向前、向后、双向)。

结果表明,IN2显著降低了原始Mistral模型的中间丢失问题。更厉害的是,作为只有7B的模型,FILM的性能在很多情况下甚至超越了GPT-4Turbo。

在保持自己执行短上下文任务能力的同时,FILM-7B在各种长上下文任务中也表现出色,例如总结长文本,回答有关长文档的问题,以及对多个文档的推理。

上表是不同模型在现实的长上下文任务中的表现。与本体Mistral-7B 相比,INformation-INtensive (IN2) 训练带来的提升很明显,FILM-7B的综合成绩仅次于GPT-4Turbo。

不过有一说一,Lost in the Middle的问题并没有完全解决,而且在长上下文存在问题的情况下,GPT-4Turbo也仍然是上下文基准中最强的模型。

Lost in the Middle

LLM丢失中间信息的问题最早由斯坦福、UC伯克利和Samaya AI的研究人员在去年发现。

nvidia geforce 940mx显卡怎么样

论文地址:https://arxiv.org/pdf/2307.03172

当面对较长的信息流时,人类倾向于记住开头和结尾,中间的内容更容易被忽视。

没想到LLM也学会了这个套路:对于从输入中检索信息的任务,当信息位于输入的开头或结尾时,模型的表现最好。

但是,当相关信息位于输入的中间时,性能会显著下降。尤其是在回答需要从多个文档中提取信息的问题时,性能下降尤为明显。

——真是干啥啥不行,偷懒第一名。

模型必须同时处理的输入越多,其性能往往越差。——而在实际得应用场景中,往往就是需要LLM同时均匀地处理大量信息。

另外,研究结果还表明,大型语言模型使用额外信息的效率是有限的,具有特别详细指令的大型提示可能弊大于利。

围墙栏杆价格

对于许多长上下文LLM,中间信息丢失的现象普遍存在。上表测试了当时市面上流行的各种款式LLM,包括GPT-4,一共是七种。

可以看出,不论是开源还是闭源模型的强者,测试结果都显示出明显的U形曲线,说明都是在两头效果好,而中间就拉跨了。

即使强如GPT-4,也难逃被掰弯的命运。

这也不禁让人质疑:你们这些卷超长上下文的模型到底有没有用啊?不但吃得多,中间信息也记不住。

信息密集型训练大法

为了明确教导模型,在长上下文中的任何位置都可以包含关键信息。研究人员构建了一个长上下文问答训练数据集 D = {L,q,a},其中问题q的答案a,来自长上下文L中的随机位置。

下图展示了整个数据构建过程。具体来说,训练数据D基于通用自然语言语料库C。给定一个原始文本,首先使用LLM(GPT-4-Turbo)生成一个问答对 (q,a),然后合成一个长上下文 L,其中包括来自C的其他随机抽样文本的必要信息。

上图包含两种类型的问答对:(1)对长上下文中细粒度信息的掌握;(2)对长上下文中不同位置出现的信息进行整合和推理。

细粒度信息感知

将包含128个token的段视为上下文的最小信息单元。给定一个原始文本C,首先从中随机提取一个128个token的段s,然后生成q、a和 L:

信息整合和推理

除了利用每个片段之外,研究人员还考虑为两个或多个片段中包含的信息生成问答对。

按照上面最小信息单元的设置,同样将全文拆分为一组128个token的段 [s],然后相应地生成 q、a和L:

使用LLM生成多跳问答对,保证每个问题对应的答案至少需要两个段内的信息。

训练

整个训练数据集包含:1.1M用于细粒度信息感知的长上下文数据(∼63%)、300K用于信息整合和推理的长上下文数据(∼17%)、150K短上下文问答数据(∼9%)和200K通用指令调整数据(∼11%)。

使用上面构建的训练数据,研究人员对Mistral-7B-Instruct-v0.2执行 IN2训练:将长上下文和问题作为指令,并使用答案部分的损失来更新模型。

超参数:将全局批处理大小设置为128,使用余弦学习率衰减,最大值为1e-6。

模型训练在16个80G A100GPU上进行,采用由pytorch FSDP实现的完整分片策略和cpu卸载策略,整个训练过程耗时大约18天。

VAL 探测

研究人员提出了VAL探测方法,作为评估语言模型上下文性能的更合适的方法,涵盖了不同的上下文风格和检索模式,以进行更彻底的评估。

下图表示VAL探测中的三个任务。检索模式由检索关键字与要检索的信息之间的相对位置决定。

这里考虑了三种上下文样式(文档、代码和结构化数据上下文)和三种检索模式(前向、后向和双向检索)。

VAL探测中的每个上下文都包含约32K个token,每个任务包含约3K个示例。

文档句子检索(双向):上下文由许多自然语言句子组成,目的是检索包含给定片段的单个句子。这些句子是从arXiv上的论文摘要中抽取的。

此任务遵循双向检索模式,因为预期的检索结果包含上下文中给定片段之前和之后的单词。评估指标是单词级别的召回率分数。

代码函数检索(向后):上下文由Python函数组成,目的是检索函数定义中给定代码行的函数名称。原始代码函数是从StarCoder数据集中采样的,并为每个函数随机选择三行定义。

此任务遵循向后检索模式,因为函数名称始终位于定义之前。评估指标是匹配精度。

趣炫网络上市

数据库实体检索(向前):上下文包含结构化实体列表,每个实体都有三个字段:ID、label和description,目的是检索给定ID的标签和说明。这些实体是从维基百科数据中采样的。

此任务遵循正向检索模式,因为标签和说明跟随ID。以宽松的匹配准确性作为衡量标准:如果响应中的标签或描述完全匹配,则给出1分,否则为0分。


返回网站首页

本文评论
微软推出Windows App,可在 iPhone / iPad 等设备上远程连接 PC_ios微软远程桌面使用教程
IT之家 11 月 16 日消息,微软 Ignite 2023 大会已于今天拉开帷幕,微软推出了全新的“Windows App”,可以远程连接 Windows 365 或者其它设备。2021折叠手机新上市这款应用程序...
日期:11-16
最后一个武侠杂志 《今古传奇·武侠版》停刊:闭关修炼「今古传奇武侠版阅读」
2月24日,《今古传奇武侠版》杂志微信公众号发文《江湖逆旅》,武侠版像经历了一场华胥之梦,在挣扎沉沦裹挟中消亡了。”作者在文中称:武侠版一路走来,细想之下错过了很多,没有所谓...
日期:02-25
携手推动数字政府“融慧治理”,中兴通讯举办首届政务市场全国生态峰会
通信世界网消息(CWW)10月26日,以“可信‘芯’基石,云网‘兴’生态”为主题的首届中兴通讯政务市场全国生态峰会在南京举办。峰会邀请三十余位相关政府部门领导、上百家生态伙伴,...
日期:11-01
unity发布游戏收费_视频游戏公司Unity拒绝AppLovin 175亿美元收购要约
相关新闻:   AppLovin开价175亿美元收购视频游戏公司Unity   讯 北京时间8月15日晚间消息,据报道,游戏软件平台Unity Software今日拒绝了游戏软件公司AppLovin 175.4亿美元...
日期:08-17
农业银行与阿里巴巴、支付宝达成战略合作 金融创新持续加强
  近日,中国农业银行与阿里巴巴集团、支付宝达成战略合作。除了此前在网银方面的合作外,农行跟支付宝会在快捷支付等创新服务方面进一步加强合作力度。   目前,农行信用卡...
日期:07-24
天猫退货周期「天猫调整交易时效规定中部分场景下退款原因描述」
10月9日 消息:日前,天猫平台发布关于调整《天猫交易时效规定》中部分场景下的退款原因描述的公告(以下简称公告)。天猫表示,为了使消费者在天猫平台退款体验更加符合真实情景表...
日期:10-15
【618外设推荐】达尔优与你解锁桌面新惊喜
  618特惠年中庆想给桌面外设换新?   想要高性能还具备高颜值的外设装备?   想要感受桌面外设给你生活的新惊喜?   达尔优外设与你自由定义,定义自由,解锁你的桌面...
日期:03-25
公会主播违约金赔偿案例「主播被判赔公会3000万背后:除了违约,还是转型失败的案例?」
声明:本文来自于微信公众号 新播场(ID:New_bc),作者:阿力古,授权转载发布。又一起主播与机构之间的纠纷!近日,据企查查,主播庄某成了失信被执行人,关联司法案件为新沂顺图网络科技...
日期:05-31
联想集团杨元庆:研发人员增加8800名 相比三年前接近翻番「联想公司总裁杨元庆」
4月6日,联想集团2023/24财年誓师大会在北京启幕。联想集团董事长兼CEO杨元庆表示,过去三年联想共增加了研发人员8800人,相比2020年初接近翻番。最新小米12联想提出了“新IT”的...
日期:04-06
行业独家离库导航优化功能发布,捷停车携手vivo、高德地图再创停车新体验
11 月 1 日,2023 vivo开发者大会在深圳国际会展中心举行。捷停车与vivo、高德地图联合呈献的行业独 家的离库导航优化功能,也在此次盛会中亮相,成为不少用户尤其是车主用户的关...
日期:11-02
荣耀MagicPad配置公布 骁龙888旗舰平板「荣耀平板骁龙425」
荣耀的新旗舰平板MagicPad在基准测试平台GeekBench的数据库中出现了。该平板的型号是HONOR GDI-W09,并搭载了高通骁龙888处理器。根据GeekBench给出的数据,MagicPad提供16GB和...
日期:07-11
一场社区文化节211万销额! 三翼鸟持续变现
现如今,对于品牌而言,谁离用户更近,谁就能精准洞察用户需求,通过对需求的快速转化,进而成为用户之选。为了离用户更近, 9 月份,三翼鸟举办首届社区文化节直接将场景样板间搬进了小...
日期:10-31
董明珠称格力不看文凭只看能力:研究生到一线生产线非人才_格力董明珠评价
你觉得研究生去一线工厂算是浪费人才吗?董明珠接受新华社采访时表示,我们企业一直主张,不问你的文凭,是凭你的能力。”你能干什么,你才能得到什么”。董明珠提到,有的研究生员工到...
日期:03-04
小米 POCO X6 Neo 手机 3 月在印度上市,POCO F6 预计 7 月上市_小米poco百度百科
IT之家 2 月 8 日消息,据 @Yogesh Brar 爆料,POCO X6 Neo 将于 2024 年 3 月在印度发售,这款智能手机将是小米去年 11 月在中国推出的Redmi Note 13R Pro 的更名版本。Brar 还...
日期:02-09
雷佳音邀您一起种草本,赢毛铺草本酒_网易科技
 点击继续查看 使用安卓和iPhone最新版本客户端可获得更流畅体验,下载地址: 安卓用户点这里 iPhone用户点这里 谷歌手机pixel发布会秘乐短视频删除自己作品mobileye市值...
日期:10-11
生鲜灯和普通灯的区别「“生鲜灯”下月起禁用 为啥能让鲜肉更诱人 原理揭秘」
11月16日消息,国家市场监管总局新修订的《食用农产品市场销售质量安全监督管理办法》将于2023年12月1日起生效。昔日手机巨头诺基亚为何要押注虚拟现实机器人届时,对于肉类、...
日期:11-17
联发科已经扩大了支持ai功能的soc产品线,加入了「联发科:新旗舰芯片将支持由Llama2模型开发的 AI 应用」
8月24日 消息:联发科技(MediaTek)将利用 Meta 的新一代开源大语言模型(LLM)Llama2以及其先进的 AI 处理器(APU)和完整的 AI 开发平台(NeuroPilot),建立终端侧 AI 计算生态,加速...
日期:08-24
华为无线充电系统专利「同时为多个设备无线充电?华为新专利公布」
凤凰网科技讯9月29日消息,天眼查App显示,近日华为技术有限公司申请的“一种充电方法、无线充电设备及相关设备”专利公布。图源:天眼查mac微信聊天记录转移摘要显示,本申请涉及...
日期:10-03
陆奇 微软_微软在线总裁陆奇:世界正进入云计算时代
  “我们正在进入云计算时代,这种技术革新将为信息社会带来更大价值。”微软在线服务集团总裁陆奇16日如是表示。   在当天于浙江宁波举行的2010年上海世博会首场主题论...
日期:07-29
二手苹果手机保值吗「旧了也是香饽饽!iPhone二手受追捧:保值好、iOS流畅、苹果够大牌」
快科技5月31日消息,iPhone的保值性毋庸置疑,其在二手市场也是备受追捧,远比安卓机有吸引力。小米高管吐槽iPhone12调研机构Assurant公布的最新报告显示,iPhone目前在二手市场以...
日期:05-31