您的位置:首页 > 互联网

模型的输入「想让大模型在prompt中学习更多示例,这种方法能让你输入更多字符」

发布时间:2023-09-13 11:10:16  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:Panda W,授权转载发布。

我们知道在使用 GPT 和 LLaMA 等大型语言模型时,输入的 prompt 存在字符数限制,比如 ChatGPT 目前的输入字符限制是4096个字符。这会限制上下文学习和思维链等技术的发挥空间,毕竟用户只能提供有限的示例数量。近日,Nous Research、EleutherAI 和日内瓦大学的一个研究团队提出了一种扩展上下文窗口的方案 YaRN ,并在实验中取得了优于其它所有方法的效果,而且他们还发布了使用 YaRN 微调过的 LLaMA27B/13B 模型,其上下文窗口为64k 和128k。

基于 Transformer 的大型语言模型(LLM)已经展现出执行上下文学习(ICL)的强大能力,并且几乎已经成为许多自然语言处理(NLP)任务的不二选择。Transformer 的自注意力机制可让训练高度并行化,从而能以分布式的方式处理长序列。LLM 训练所用的序列的长度被称为其上下文窗口。

Transformer 的上下文窗口直接决定了可以提供示例的空间量,从而限制了其 ICL 能力。

滴滴的创始人程维的成功之处

如果模型的上下文窗口有限,那么为模型提供稳健示例的空间就更少,而这些稳健示例正是执行 ICL 所用的。此外,当模型的上下文窗口特别短时,摘要等其它任务也会受到严重妨碍。

就语言本身的性质来说,token 的位置对有效建模来说至关重要,而自注意力由于其并行性,并不会直接编码位置信息。Transformer 架构引入了位置编码来解决这个问题。

原始的 Transformer 架构使用了一种绝对正弦位置编码,之后其被改进成了一种可学习的绝对位置编码。自那以后,相对位置编码方案又进一步提升了 Transformer 的性能。目前,最流行的相对位置编码是 T5Relative Bias、RoPE、XPos 和 ALiBi。

位置编码有一个反复出现的限制:无法泛化在训练期间看到的上下文窗口。尽管 ALiBi 等一些方法有能力做一些有限的泛化,但还没有方法能泛化用于显著长于其预训练长度的序列。

已经出现了一些试图克服这些限制的研究成果。比如,有研究提出通过位置插值(PI)来稍微修改 RoPE 并在少量数据上微调来扩展上下文长度。

两个月前,Nous Research 的 Bowen Peng 在 Reddit 分享了一种解决思路,即通过纳入高频损失来实现「NTK 感知型插值」。这里的 NTK 是指 Neural Tangent Kernel(神经正切核)。

其声称经过 NTK 感知型扩展的 RoPE 能让 LLaMA 模型的上下文窗口大幅扩展(超过8k),同时还无需任何微调,对困惑度造成的影响也极小。

近日,他与另外三位合作者的相关论文出炉了!

  • 论文:https://arxiv.org/abs/2309.00071

  • 模型:https://github.com/jquesnelle/yarn

在这篇论文中,他们对 NTK 感知型插值做出了两点改进,它们分别侧重于不同的方面:

  • 动态 NTK 插值法,无需微调就能用于预训练模型。

  • 部分 NTK 插值法,当使用少量更长上下文的数据微调后,模型能取得最佳表现。

研究者表示,在这篇论文诞生前,就已经有研究者将 NTK 感知型插值和动态 NTK 插值用于一些开源模型。比如 Code Llama(使用 NTK 感知型插值)和 Qwen7B(使用动态 NTK 插值)。

在这篇论文中,基于之前有关 NTK 感知型插值、动态 NTK 插值和部分 NTK 插值的研究成果,研究者提出了 YaRN(Yet another RoPE extensioN method),一种可以高效扩展使用旋转位置嵌入(Rotary Position Embeddings / RoPE)的模型的上下文窗口的方法,可用于 LLaMA、GPT-NeoX 和 PaLM 系列模型。研究发现,只需使用原模型预训练数据规模大约0.1% 量的代表性样本进行微调,YaRN 就能实现当前最佳的上下文窗口扩展性能。

方法

旋转位置嵌入(Rotary Position Embeddings / RoPE)最早由论文《RoFormer: Enhanced transformer with rotary position embedding》引入,也是 YaRN 的基础。

简单来说,RoPE 可以写成如下形式:

对于使用固定上下文长度预训练的 LLM,如果使用位置插值(PI)来扩展上下文长度,则可以表示为:

可以看出 PI 对所有 RoPE 维度都会做同等延展。研究者发现 PI 论文中描述的理论插值界限不足以预测 RoPE 和 LLM 内部嵌入之间的复杂动态。下面将描述研究者发现并解决的 PI 的主要问题,以便读者了解 YaRN 中各种新方法的背景、起因和解决理由。

高频信息丢失 ——NTK 感知型插值

如果只从信息编码的角度看 RoPE,根据神经正切核(NTK)理论,如果输入维度较低且对应的嵌入缺乏高频分量,那么深度神经网络难以学习高频信息。

为了解决在对 RoPE 嵌入插值时丢失高频信息的问题,Bowen Peng 在上述 Reddit 帖子中提出了 NTK 感知型插值。这种方法不会对 RoPE 的每个维度进行同等扩展,而是通过更少地扩展高频和更多地扩展低频来将插值压力分散到多个维度。

在测试中,研究者发现在扩展未经微调的模型的上下文大小方面,这种方法优于 PI。但是,这种方法有一个重大缺点:由于它不只是一种插值方案,某些维度会被外推入一些「界外」值,因此使用 NTK 感知型插值进行微调的效果不及 PI。

更进一步说,由于存在「界外」值,理论上的扩展因子就无法准确地描述真实的上下文扩展程度。在实践中,对于给定的上下文长度扩展,必须将扩展值 s 设置得比期望的扩展值高一点。

相对局部距离的损失 —— 部分 NTK 插值

对于 RoPE 嵌入,有一个有趣的观察:给定一个上下文大小 L,存在某些维度 d,其中的波长 λ 长于预训练阶段见过的最大上下文长度(λ > L),这说明某些维度的嵌入可能在旋转域中的分布不均匀。

PI 和 NTK 感知型插值会平等地对待所有 RoPE 隐藏维度(就好像它们对网络有同样的效果)。但研究者通过实验发现,网络会给某些维度不同于其它维度的待遇。如前所述,给定上下文长度 L,某些维度的波长 λ 大于或等于 L。由于当一个隐藏维度的波长大于或等于 L 时,所有的位置配对会编码一个特定的距离,因此研究者猜想其中的绝对位置信息得到了保留;而当波长较短时,网络仅可获得相对位置信息。

当使用扩展比例 s 或基础变化值 b' 来拉伸所有 RoPE 维度时,所有 token 都会变得与彼此更接近,因为被一个较小量旋转过的两个向量的点积会更大。这种扩展会严重损害 LLM 理解其内部嵌入之间小的局部关系的能力。研究者猜测这种压缩会导致模型对附近 token 的位置顺序感到困惑,从而损害模型的能力。

为了解决这个问题,基于研究者观察到的现象,他们选择完全不对更高频率的维度进行插值。

名创优品海外店铺

他们还提出,对于所有维度 d,r < α 的维度按扩展度 s 线性插值(与 PI 一样,避免出现外推);r > β 的维度就完全不插值(总是外推)。

使用这一小节描述的技术,一种名为部分 NTK 插值的方法诞生了。这种改进版方法优于之前的 PI 和 NTK 感知型插值方法,其适用于无微调和已微调模型。因为该方法避免了对旋转域分布不均匀的维度进行外推,因此就避免了之前方法的所有微调问题。

动态缩放 —— 动态 NTK 插值

李智楠现状

当使用 RoPE 插值方法无微调地扩展上下文大小时,我们希望模型在更长的上下文大小上慢慢地劣化,而不是在扩展度 s 超过所需值时在整个上下文大小上完全劣化。

在动态 NTK 方法中,扩展度 s 是动态计算的。

模型怎么打

在推理过程中,当上下文大小被超过时,就动态地更改扩展度 s,这样可让所有模型在达到训练的上下文限制 L 时缓慢地劣化而不是突然崩溃式劣化。

增加用于长距离的平均最小余弦相似度 ——YaRN

即便解决了前面描述的局部距离问题,为了避免外推,也必须在阈值 α 处插值更大的距离。直觉来看,这似乎不应该是个问题,因为全局距离无需高精度也能区分 token 位置(即网络只需大概知道 token 是在序列的开头、中间或末尾即可)。

但是,研究者发现:由于平均最小距离随着 token 数量的增加而变得更近,因此它会使注意力 softmax 分布变得更尖(即减少了注意力 softmax 的平均熵)。换句话说,随着长距离衰减的影响因插值而减弱,网络会「更加关注」更多 token。这种分布的转变会导致 LLM 输出质量下降,这是与之前问题无关的另一个问题。

由于当将 RoPE 嵌入插值到更长的上下文大小时,注意力 Softmax 分布中的熵会减少,因此研究者的目标是逆转这种熵减(即增加注意力 logit 的「温度」)。这可以通过在应用 softmax 之前将中间注意力矩阵乘以温度 t >1来完成,但由于 RoPE 嵌入被编码为一个旋转矩阵,就可以简单地按常数因子 √t 来扩展 RoPE 嵌入的长度。这种「长度扩展」技巧让研究可以不必修改注意力代码,这能大幅简化与现有训练和推理流程的集成,并且时间复杂度仅有 O (1)。

由于这种 RoPE 插值方案对 RoPE 维度的插值不均匀,因此很难计算相对于扩展度 s 所需的温度比例 t 的解析解。幸运的是,研究者通过实验发现:通过最小化困惑度,所有 LLaMA 模型都遵循大致相同的拟合曲线:

研究者是在 LLaMA7B、13B、33B 和65B 上发现这个公式的。他们发现这个公式也能很好地适用于 LLaMA2模型(7B、13B 和70B),差别很细微。这表明这种熵增特性很常见,可以泛化到不同的模型和训练数据。

这种最终修改方案产出了 YaRN 方法。新方法在已微调和未微调场景中都胜过之前所有方法,而且完全不需要修改推理代码。只需要修改一开始用于生成 RoPE 嵌入的算法。YaRN 如此简单,使其可以在所有推理和训练库中轻松实现,包括与 Flash Attention2的兼容性。

实验

实验表明 YaRN 能成功扩展 LLM 的上下文窗口。此外,他们仅训练了400步就得到了这一结果,这差不多只有模型的原始预训练语料库的0.1%,与之前的研究成果相比有大幅下降。这说明新方法具有很高的计算效率,没有额外的推理成本。

为了评估所得到的模型,研究者计算了长文档的困惑度,并在已有基准上进行了评分,结果发现新方法胜过所有其它上下文窗口扩展方法。

首先,研究者评估了上下文窗口增大时模型的性能表现。表1总结了实验结果。

表2展示了在50个未截断的 GovReport 文档(长度至少为16k token)上的最终困惑度。

为了测试使用上下文扩展时模型性能的劣化情况,研究者使用 Hugging Face Open LLM Leaderboard 套件评估了模型,并将其与 LLaMA2基准模型以及公开可用的 PI 和 NTK 感知型模型的已有分数进行了比较。表3总结了实验结果。


返回网站首页

本文评论
AMD RX7900被吐槽空气卡 溢价千元普遍:国内用户持币等 买它还是4080?
由于没有公版,同时叠加前期货源太少,这导致国内不少用户持币等待。小度小创造未来随着AMD RX 7900系列国内上市,不少用户发现,由于供货太少的缘故,导致根本买不到自己想要的型号,...
日期:12-24
DDR5高速内存性能狂飙取强悍战绩 京东618成交额增长超5倍「ddr5 内存 价格」
对于有处理图像、视频等高性能需求的用户来说,DDR5内存相比之前的产品,不仅在频率上实现翻倍,带宽传输速度更快,而且拥有更高的能耗比,更加省电节能,整体性能更为强劲,对提高生产力...
日期:06-19
华为Mate50系综合实力并不突出, 为啥能够如此大卖!_华为今年出mate50吗
华为mate50首发销量喜人,综合实力并不突出,为何能如此大卖?华为Mate50系列手机大卖很正常,很多人都憋坏了!别小看了华为手机的影响力,毕竟曾经也是登上了全球销量榜单的王者,后来为...
日期:09-27
iPhone 15要上USBC接口 苹果自研芯片认证:兼容安卓没戏「iphone13支持typec」
距离今年的iPhone 15系列手机发布也就半年多时间了,这个时间点上苹果早已经完成设计,大部分技术规格都已经确定了,iPhone 15除了常规升级,今年还会换上USBC接口,取代使用多年的Li...
日期:02-13
chrome 同步功能停用怎么办_谷歌将停止 Chrome 48 及更早版本的数据同步功能
  11 月 9 日消息,谷歌宣布将在 Chrome 96 进入稳定版本后,结束对 Chrome 48 及更早版本的 Chrome 同步功能的支持。   谷歌官方人员表示,为了继续使用 Chrome 同步,请将...
日期:06-27
小米云服务会员是干嘛的_小米推出长期云服务会员
  (原标题:,最高可达60年)   2月14日消息 据IT之家网友反馈,小米现已推出云服务会员长期方案,包括10年与60年两种方案。   以白金会员为例,10年长期方案售价639元;60年长...
日期:08-02
骁龙8G2曝光:3.3GHz性能提升20%「2.0GHz高通骁龙」
将于11月15日在美国夏威夷举行的高通骁龙峰会受到众多手机玩家的关注,本次峰会的热点莫过于主角骁龙8 Gen2了。新的爆料称骁龙8 Gen2的性能将在骁龙8Gen1的基础上提升20%。根...
日期:10-30
“IPv6+”和“全光网” 打造坚实算网底座_pon全光组网
通信世界网消息(CWW)在2023年上海世界移动通信大会(MWC Shanghai 2023)期间,中国移动成功举办“算网共生,数智无限”算力网络技术和产业大会。在大会上,中国移动联合华为等产业伙伴...
日期:07-02
小米MIX Fold 3保外维修费出炉:换屏要3650元 够买台K60至尊版「小米mix fold屏幕保修吗」
快科技8月17日消息,小米新一代折叠旗舰小米MIX Fold 3正式开售,售价8999元起,根据官方数据,该机首销5分钟就达成了上一代销量的2.25倍,刷新小米折叠屏旗舰的首销记录,十分火爆。从...
日期:08-17
没有谁可以帮你「没有谁能保证你赚钱!」
声明:本文来自于微信公众号 十里村(ID:shilipxl),作者:村长住在十里村,授权转载发布。各位村民好,我是村长。但凡向你保证可以赚钱的,都是割你韭菜的,总会让你付出代价的。我知道说...
日期:03-28
真假HDR电视分晓,TCL T7H揭秘HDR电视迷思
不知道大家一年看几部电影,我个人包括电影院、互联网一年怎么也在上百部,这样让我对高画质片源情有独钟,所以经常会找一些HDR片源来看,毕竟HDR技术被誉为能提供最真实、震撼的视...
日期:07-28
iQOO Neo8 Pro首发!曝天玑9200 安兔兔跑分达135W
据数码闲聊站透露,天玑9200 处理器的安兔兔跑分约为135W,该处理器采用X3超大核提频,极限跑分略高于常规骁龙8 Gen 2机型。蚂蚁国际业务三体 电视剧版此外,首批搭载天玑9200 处理...
日期:04-08
谁说的不流畅?Steam玩家调查:Win11成香饽饽 NV四年前神卡1650领跑
每个月,Valve都会进行一次自愿调查,以收集关于其客户用来访问Steam的PC配置的信息。三星折叠手机铰链松动调查结果显示,Windows 11不断从Windows 10手中抢夺用户。根据Valve的...
日期:01-03
华为鸿蒙OS 3.1即将上线:堪比iOS,动画更流畅「鸿蒙3.0ui」
据报道,华为于今年3月在P60系列手机上首次搭载了鸿蒙OS 3.1操作系统,该操作系统主打安全和纯净等特点。现在新上市的苹果目前,鸿蒙OS 3.1的Beta2版本已经推出,它在Beta1版本的基...
日期:04-25
乐信Q3营收27亿元,用户数1.84亿同比增19%_「乐信三季报」
11月17日消息,乐信(NASDAQ:LX)发布2022年三季度未经审计财务业绩:2022年第三季度贷款发放总额为562亿元人民币,较2021年第三季度的558亿元人民币增长0.7%。乐信2022年第三季度营收2...
日期:11-28
车主为丰田BZ4X正名:不是工业垃圾 便宜9万买的优点非常多
去年10月份,一汽丰田首款纯电SUV车型bZ4X正式上市,售价区间为19.98-28.48万元。但是该车的定价过于自信,且与国内同级新能源相比,配置、智能化程度没有竞争优势,该车上市后的销量...
日期:08-27
苹果推出全新 15 英寸 MacBook Air:搭载 M2 芯片 售价 10499 元起
6月6日消息:苹果在 WWDC 2023 上宣布推出了一款全新的 MacBook Air,配备了 15.3 英寸 Liquid Retina 显示屏,并搭载了苹果最新的 M2 芯片。华米amazfit1smate20升级鸿蒙os3.0...
日期:06-06
耳机充电两不误!联想拯救者Y700电竞平板搭载双USB-C接口「拯救者y7000能不能用usb c充电」
快科技7月18日消息,联想官方此前已经宣布,将于7月22日正式发布新一代平板产品拯救者Y700。像巫师三一样的大作联想今日表示,拯救者Y700电竞平板为解决充电无法兼顾耳机的尴尬,将...
日期:07-19
动画市场迎来《三体》,然后呢?「动画 三体」
声明:本文来自于微信公众号 娱乐独角兽(ID:yuledujiaoshou),作者:桃乐丝,授权转载发布。京东买东西没花钱为什么对于《三体》粉丝们而言,上周六发生了一件大事情。在《三体》IP开...
日期:12-13
《新型数据中心发展三年行动计划(2021-2023年)》「工信部公布33个2022年国家新型数据中心典型案例 中国移动上榜10个」
2023/4/24 10:12 工信部公布33个2022年国家新型数据中心典型案例 中国移动上榜10个元宇宙概念板块代码 工信微报   ...
日期:06-02