您的位置:首页 > 互联网

斯坦福大学:大模型“卷”错方向了?上下文窗口越长,模型越笨

发布时间:2023-07-28 17:32:35  来源:互联网     背景:

声明:本文来自微信公众号“大数据文摘”(ID:BigDataDigest),作者:文摘菌,授权转载发布。

在语言模型中,上下文窗口对于理解和生成与特定上下文相关的文本至关重要。

一般而言较大的上下文窗口可以提供更丰富的语义信息、消除歧义。

由于硬件和算法的最新进步,大模型的上下文窗口的长度也越来越“卷”。

其中的卷王当属Anthropic公司,其五月份就将 Claude 的上下文窗口从9k token扩展到了100k。

最近更新的Claude2更是让其100K的上下文能力“常驻”模型。

有大模型“风向标”之称ChatGPT也在三月份将GPT-4模型最大上下文窗口达扩至32K;六月份将GPT-3.5-Turbo增加了16k的上下文长度(此前是4k)。

而斯坦福大学联合加州伯克利大学以及Samaya的研究员, 在一篇题为“中途迷失:语言模型的长·上下文利用之道”中提出: 在多文档问题回答和键值检索,这两种都需要从输入的上下文中识别相关信息的任务中,大语言模型会随着输入上下文的长度增加,性能会显著下降。

具体而言,作者指出当相关信息出现在输入上下文的开头或结尾时,性能通常最好,但当模型需要在长篇上下文的中间获取相关信息时,性能明显降低。

换句话说:当带有答案的文字,被放在文章的中间时候,大语言模型可能无法准确识别、理解该答案。

因此,大模型目前越来越卷的上下文窗口长度,可能并不能增加模型的理解能力。

值得一提的是,知名科技媒体网站VentureBeat也报道了这篇论文,并咨询了一些专家,表示,向量数据库可能是破局的关键。

Vector databases like Pinecone help developers increase LLM memory by searching for relevant information to pull into the context window.

最奇葩的诺奖得主

这一说法也得到了上述论文的关键作者“Nelson Liu”的认可,他表示:如果将整个 PDF 放到语言模型上下文窗口中,然后询问有关该文档的问题,那么使用向量数据库搜索通常会更有效。

同时Nelson Liu也提到这篇论文并不是在说将整篇文档塞进大模型的上下文窗口,就一定表现不好。其实,结果取决于文档所包含的具体内容,大模型在区分“关系密切的内容”时,表现不佳。当各部分内容不相关(相互独立)的时候,大模型非常擅长“准确定位”。

编者注:向量数据库的核心思想是将文本转换成向量,然后将向量存储在数据库中,当用户输入问题时,将问题转换成向量,然后在数据库中搜索最相似的向量和上下文,最后将文本返回给用户。

论文细节

论文对开源和非开源的模型都进行了测验,前者包括MPT-30B-Instruct,LongChat-13B(16K);后者包括OpenAI的GPT-3.5-Turbo和Anthropic的Claude。

首先进行了多文档问题回答的实验。该任务的目标是让模型对文档进行推理,找到并使用相关信息来回答给定的问题。

在实验中,对输入上下文的大小以及输入上下文中的相关信息位置进行了有控制的调整。

如上图所示,当改变相关信息在文档中的位置时,模型性能呈现独特的U形趋势,即当相关信息出现在输入上下文的开头或结尾时,性能通常最好;当模型需要在长篇上下文的中间获取相关信息时,性能明显最低。

甚至,在相关信息被放在输入上下文的中间位置时,GPT-3.5-Turbo在多文档问题回答任务上的表现不如别提供文档。

此外,一些号称专门处理长文本的大模型,在这方面表现也不好。

那么,语言模型有多大程度上能从输入上下文中检索信息呢?论文作者指定了一个合成的键值检索任务来探索该问题。

在这个任务中,模型需要处理一组JSON格式的键值对,并必须返回与特定键相关联的值。类似于多文档问题回答任务,键值检索任务在操作过程中,也对输入上下文的大小以及输入上下文中的相关信息位置进行了有控制的调整。

结果显示:仍然是U形性能曲线。

多文档问答

多文档问答任务在很大程度上类似于商业搜索和问答应用(例如,Bing Chat)所采用的检索增强生成模式。

rtx3060支持pcie4.0吗

在这些实验中,模型的输入是一个需要回答的问题,以及k篇文档(例如,来自维基百科的段落),其中一篇文档包含了问题的答案,而剩下的k-1篇“干扰”文档则没有。

如上图所示,要执行多文档问答任务,模型需要在输入的上下文中获取包含答案的文档,并用它来回答问题。

具体测验中,作者利用NaturalQuestions基准测试的数据,创建了这一任务的实例。其中,使用的查询来自于NaturalQuestions-Open,并从维基百科抽取段落(即不超过100个Token的文本块)作为输入上下文中的文档。

对于所有这些查询,需要找到一份包含答案的文档,并找到k -1份没有答案的文档作为干扰项。前者作者采用NaturalQuestions注释中含有答案的维基百科段落;后者采用了Contriever检索系统找出那些最与问题相关,但并未包含任何NaturalQuestions标注答案的k -1个维基百科片段。

最后,将准确度作为主要的评价标准,以此来判断预测输出中是否出现了正确的答案。

前期准备工作完毕,作者对当前几个“最能打”的大模型进行了测验。从上图可以看出,这些模型都展示出了U形性能。

如上图所示,随着输入上下文的增长,模型的表现有明显的下滑。无论哪一个任务,随着上下文扩展,模型的功能都会表现出退化。

键值检索任务

国外的购物狂欢节

键值检索任务能够测验大模型从输入上下文直接获取信息的能力。键值检索任务中,输入是含k对键值的JSON对象及一特定键,目标是返回该键关联的值。

因此,每个JSON对象都包含一个关联的键值对(需要检索的值),和k-1个不相关的“干扰”键值对。上图展示了键值检索任务输入内容和其对应的预期输出。

该任务中,可通过增加或减少随机键来改变JSON键值对的数量,这样就改变了输入的长度;同时也会调整输入中相关的正確信息的位置。

含有75、140和300个键值对的测试

上图展示了键值检索的表现。结果显示虽然键值找回任务仅需找到输入上下文中的精确匹配,但并非所有模型都表现优秀。claude模型在各种长度上都接近完美,但其他模型在检索大量键值对时遇到了困难。

在键值检索和多文档问答任务中,表现出类似的U型曲线。唯一的例外是在键值检索任务中表现出色的模型(claude)。值得一提的是,LongChat-13B在140键值环境下的表现非常独特,它会生成代码来提取键值,而非直接输出值。

为什么会出现这种问题?

为深入洞察其原因,作者初步研究了模型构架,答案在上下文中位置,和指令调优起到的作用。

在模型架构层面,论文比较了only解码器和编码-解码两类模型,结论是:相比于only解码器的语言模型,编码器-解码器结构的语言模型在上下文窗口方面较为稳健。但当模型处理超过其在训练时使用的最大序列长度时,编码器-解码器模型也会出现U形曲线。

另外,更改答案在上下文中的位置,可以完美地提高关键-值检索任务的性能,但对多文档问答任务的性能趋势影响不大。

最后,作者发现基础语言模型在没有指令调优的情况下也表现出U形曲线,这表明指令调优过程本身可能不是造成这一性能模式的原因。

生菜怎么做最好吃

换句话说,语言模型在利用中间信息上的困难,其根本原因可能不在于指令调优,这需要我们更深入地研究模型本身的结构及训练过程。

论文结论

提供更多上下文信息并非总是有益的。尽管在某些情况下,向语言模型提供更多的上下文信息可以提高其性能,但是在一定点之后,增加更多的上下文信息可能无法带来显著的性能改进。

模型优先使用开头和末尾信息。语言模型更容易处理输入信息的开头和末尾部分,所以把关键信息放在这些位置或缩短文档长度可能有助于提升性能。

模型难以利用更长的上下文。仅仅通过增加上下文长度可能无法有效提升语言模型的性能。要真正改善模型处理长上下文的能力,可能需要从模型本身进行改进,例如改进模型的架构或者训练策略。

参考文献

https://venturebeat.com/ai/stanford-study-challenges-assumptions-about-language-models-larger-context-doesnt-mean-better-understanding/

https://arxiv.org/abs/2307.03172

https://guangzhengli.com/blog/zh/vector-database/


返回网站首页

本文评论
我那双11还没到的货,让即时零售“可爱”起来了
声明:本文来自微信公众号“奇偶派”(ID:jioupai),作者:春晖,授权转载发布。年关将近,你能想到自己居然连双11的货都还没收到吗?就今年这样荒诞的购物经历,让我和身边很多朋友忽然发...
日期:12-22
5项关键功能绝了!曝苹果将于2023年推出全新的CarPlay体验_苹果汽车carplay
在 6 月的 WWDC 2022 上,Apple预览了下一代 CarPlay,承诺与 A/C 和 FM 收音机等车辆功能进行更深入的集成,支持仪表板上的多个显示器、个性化选项等。中国的光量子计算机怎么样...
日期:12-29
重塑持续的冒险_重塑勇气
  “中国投资年会”是私募股权行业极富影响力的年度盛会,也是每年全国VC/PE领域从业者关注的焦点。“2023中国投资年会”由投中信息和投中网联合主办,投中资本协办,于5月17-1...
日期:05-18
即时零售力推生鲜 京东发布“百城万店推新计划”「生鲜店营销活动」
  来源:北京商报  北京商报讯(记者 何倩 实习记者 王思琦)9月27日,京东超市公布全渠道业务最新进展。截至目前,京东超市联合京东小时购已覆盖超8.7万家商超类实体门店,超2.9万...
日期:10-05
消息称iPhone 15系列有望采用堆叠电池
7月18日 消息:在距离苹果秋季新品发布会不到两个月的时间里,有关iPhone15的电池技术成为了大家关注的焦点。据此前消息,iPhone15系列的电池容量相较于iPhone14系列将有显著提...
日期:07-18
女子深夜加班回家吃榴莲被丈夫指责 网友质疑摆拍:头顶长了摄像头
5月开始,到了榴莲销售的旺季。其素有水果之王”之称,但和螺蛳粉类似,作为有味道的水果,同样是喜欢的爱不释手,不喜欢的则嗤之以鼻。iphone屏幕压力感应日前一段视频引发网络热议,5...
日期:05-07
6g卫星什么意思「“6G+大模型+卫星互联网&6G纲领性目标文件”多主题沙龙举办」
“6G+大模型+卫星互联网&6G纲领性目标文件”多主题沙龙举办 通信产业网|2023-07-04 14:37:52作者:6G俱乐部来源:6G俱乐部7月1日,庆祝中国共产党成立102周年,6G俱乐部(筹)在中国互...
日期:07-04
苹果手机图片「苹果手机图片传输到电脑上」
苹果手机自上市以来,一直以来以它的品牌和高性能而闻名全球。它的设计以及图片质量也是苹果手机广受欢迎的原因之一。苹果手机的图片品质具有很高的清晰度和真实性,因此很多人...
日期:06-04
一对夫妻在高速公路上「夫妻高速上被黑熊撞翻车致脑震荡 将追究高速公路责任」
赵先生和妻子正在驾车外出旅行,途中一只野生黑熊突然冲入高速公路并扑向了他们的车头,导致两人翻车并受伤。赵先生表示,他们原本计划做一个旅行节目,但没想到在第一站就发生了这...
日期:07-08
摩尔定律是由英特尔创始人之一「英特尔CEO:摩尔定律依然有效 将“用尽化学元素周期表”」
英特尔公司首席执行官Pat Gelsinger今天在他的InnovatiON主题演讲中称,摩尔定律"活得很好",而且英特尔公司准备在这十年中成为其忠实的守护者,具体做法是“英特尔晶圆厂将'用尽...
日期:10-03
Nvidia公布新文本转视频模型 基于Stable Diffusion开发!
4月20日 消息:Nvidia公布了其基于Stable Diffusion 模型开发的文本转视频模型—— Nvidia Video LDM。Nvidia通过对现有模型的微调,大大减少了生成视频的过程和时间。买电视...
日期:04-20
元宇宙 人工智能「PRINS.AI智能员工,开启元宇宙工作模式新时代」
  自Facebook更名为“Meta”后,元宇宙已成为当前最热门的科技赛道之一,巨头们纷纷押注,更多聚焦在虚拟现实VR硬件,以此打造元宇宙生态。然而,元宇宙仍然处在早期阶段,让Meta面临...
日期:07-01
寻找抖音运营合作_饿了么与抖音达成合作,携手助力本地生活商家探索视频化经营
8月19日消息,饿了么和抖音共同宣布达成合作。双方表示,将携手探索本地生活服务的新场景升级,通过优质的内容、丰富的商品和高效的物流配送,深度连接商家与消费者,在视频化时代带...
日期:08-20
怎么忽然都在说钉钉变好用了?_为什么我的钉钉
  上周,钉钉总裁叶军在钉峰会上公开向自家产品“开炮”:  “钉钉消息太多,很烦。”  他说周围很多人讨厌DING消息。“我从来不DING人,只打电话。”  钉钉上提示消息的红...
日期:09-28
国美年货节美酒狂欢 带你寻找全家喜欢的网红酒_国美酒价格
  春节是阖家团圆的日子,也是家人共聚一堂共享喜庆祝贺之时。美好的宴会一定不会缺少美酒相伴。国美年货节期间,国美美店推出美酒狂欢活动,活动涵盖了葡萄酒、白酒、起泡酒...
日期:12-28
腾讯音乐第二季度营收69.1亿元 净利润同比增长3.5%(腾讯音乐年营收)
TCL 美的阅文集团营业收入 查看最新行情   讯 北京时间8月16日凌晨消息,腾讯音乐(NYSE:TME)今日公布了该公司截至6月30日的2022财年第二季度未经审计财报。...
日期:08-17
通信基站伪装进小区  用户喊打运营商喊冤_小区不让装基站
大家有没有想到过,你小区里面的一棵小松树、一盏草坪灯、一个变电箱、一个空调室外机甚至是一个太阳能热水器和一个烟囱,都有可能是一个手机基站所伪装的呢?近来,天涯论坛、微...
日期:07-22
2020年三大运营商携号转网情况_“携号转网”正式启动,纳入四大运营商考核指标
  11月27日消息 今日,工信部召开携号转网启动仪式,11月27日起,携号转网正式在全国提供服务。   据中新网消息,中国电信、中国移动、中国联通、中国广电四大运营商把携号转...
日期:10-22
单板电脑知乎「单板电脑」
单板电脑(Single Board Computer,SBC)是指整个计算机系统(包括CPU、存储器、接口电路、时钟电路、电源电路等)在一块电路板上实现的计算机。目前市面上的SBC主要分为两大类:一类是...
日期:05-29
facebook使用说明_Facebook CEO向用户道歉 承诺改善隐私设置
  据国外媒体报道,曾在博客中指责Facebook网站存在删除对其批评意见的著名企业博客罗伯特·斯科利(Robert Scoble)宣称,已经收到来自Facebook公司首席执行官马克·扎克伯格(Ma...
日期:07-29