您的位置:首页 > 互联网

LLM上下文窗口突破200万!无需架构变化+复杂微调,轻松扩展8倍

发布时间:2024-04-29 15:47:21  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

大型语言模型(LLM)往往会追求更长的上下文窗口,但由于微调成本高、长文本稀缺以及新token位置引入的灾难值(catastrophic values)等问题,目前模型的上下文窗口大多不超过128k个token

最近,Microsoft Research的研究人员提出了一个新模型LongRoPE,首次将预训练 LLM 的上下文窗口扩展到了2048k个token,在256k的训练长度下只需要1000个微调步骤即可,同时还能保持原始短上下文窗口的性能。

论文链接:https://arxiv.org/abs/2402.13753

代码链接:https: //github.com/microsoft/LongRoPE

LongRoPE主要包含了三个关键创新点:

1. 通过高效搜索识别并利用了位置插值中的两种非均匀性,为微调提供了更好的初始化,并在非微调情况下实现了8倍扩展;

2. 引入了渐进扩展策略,首先微调256k 长度的 LLM,然后在微调扩展的LLM上进行第二次位置插值,以实现2048k 上下文窗口;

3. 在8k长度上重新调整 LongRoPE以恢复短上下文窗口性能。

在 LLaMA2和 Mistral 上对各种任务进行的大量实验证明了该方法的有效性。

通过 LongRoPE 扩展的模型保留了原始架构,只对位置嵌入稍作修改,并且可以重复使用大部分已有的优化。

位置插值的不均匀性

Transformer模型需要明确的位置信息,通常以位置嵌入(position embedding)的形式来表示输入token的顺序。

本文中的位置嵌入表示方法主要来自于RoPE, 对于位置索引为 n 的标记,其相应的 RoPE 编码可简化如下:

其中,d 是嵌入维度,nθi 是标记在位置 n 上的旋转角度,θi = θ -2i/d 表示旋转频率。在 RoPE 中,θ 的默认基准值为10000。

受 NTK 和 YaRN 的启发,研究人员注意到这两个模型可以从非线性嵌入中获得性能提升,特别是在考虑 RoPE 各维度的不同频率以进行专门的内插法和外推法时。

然而,当前的非线性在很大程度上依赖于人为设计的规则。

这也自然引出了两个问题:

1. 当前的位置插值是否是最佳的?

2. 是否存在尚未探索的非线性?

为了回答这些问题,研究人员使用进化搜索(evolution search)为LLaMA2-7B发现更好的非均匀位置插值。搜索以易错性为指导,使用来自PG19验证集的5个随机样本。

通过实证分析,研究人员总结了几个主要发现。

发现1:RoPE维度表现出很大的不均匀性,目前的位置插值方法无法有效处理这些不均匀性;

在公式2中为每个 RoPE 维度搜索最佳 λ。

研究人员对比了PG19和Proof-pile测试集上使用不同方法的 LLaMA2-7B 在不进行微调的情况下的复杂度。

从结果来看,搜索到的解决方案有明显改善,表明当前的线性(PI,positional interpolation)和非均匀(Dynamic-NTK 和 YaRN)插值方法都不是最佳的。

值得注意的是,YaRN 在 PG19上的表现不如 PI 和 NTK,因为其达不到非微调 LLM 的目标上下文窗口长度。

例如,在8k 上下文大小的情况下,YaRN 的困惑度在7k 后达到峰值。

通过搜索,公式2中的重标度(rescaled)因子λ变得不均匀,与PI、NTK的公式计算和YaRN的分组计算中的固定标度s有所不同。

在8k和16k上下文窗口中,这些非均匀因子大大提高了LLaMA2的语言建模性能(即复杂度),而无需进行微调,主要是因为由此产生的位置嵌入有效地保留了原始的RoPE,尤其是关键维度,从而降低了LLM区分近似token位置的难度。

发现2:输入序列中初始词块的RoPE推断应减少插值;

对于输入序列中的初始n个token,假设RoPE应该做较少的插值,这是因为会获得较大的注意力分数,从而对注意力层至关重要,正如在Streaming LLM和 LM-Infinite 中观察到的那样。

为了验证这一点,研究人员使用PI和NTK将上下文窗口扩展到8k 和16k,保留前 n(0,2, ...,256)个token,不进行插值。当n=0时,则恢复到原来的 PI 和 NTK

上表中可以观察到两个结果:

1. 保留起始token而不进行位置插值确实能提高性能。

2. 最佳起始token数n取决于目标扩展长度。

发现3:在微调和非微调设置中,非均匀位置插值都能有效扩展 LLM 上下文窗口。

虽然已经证明,在不进行微调的情况下,搜索到的非均匀位置插值能显著提高8k和16k扩展性能,但更长的扩展需要微调。

因此使用搜索到的RoPE对LLaMA2-7B的64k上下文窗口大小进行了微调。

从结果中可以看到,在微调LLaMA2-7B之前和之后,该方法都明显优于PI和YaRN,主要原因是有效地使用了非均匀位置插值、最小化信息损失,以及为微调提供了更好的初始化。

受上述发现的启发,研究人员提出了LongRoPE,首先引入了一种高效的搜索算法,以充分利用这两种不均匀性,并将LLM上下文窗口扩展到200万个token

具体形式化算法参见原文。

实验结果

研究人员将LongRoPE应用于LLaMA2-7B和Mistral-7B模型上,并从三个方面对其性能进行了评估:

1. 长文档中扩展上下文 LLM 的困惑度;

2. 密钥(passkey)检索任务,该任务衡量模型从大量无关文本中检索简单密钥的能力;

3.4096上下文窗口的标准LLM基准;

在256k范围内进行长序列语言建模

在Proof-pile和PG19上通过不同插值方法扩展的 LLaMA2和 Mistral 的困惑度。

从实验结果中可以得出两个关键的结论:

1. 从4k 到256k 的评估长度来看,扩展模型展现出整体困惑度下降的趋势,表明模型有能力利用更长的上下文;

2. 即使在上下文窗口长度为16倍的情况下(这通常是在较短上下文长度下保持性能所面临的挑战),我们的 LongRoPE-2048k 模型在256k 上下文长度内的性能仍优于最先进的基线模型。

超过2000k的长序列语言建模

为了评估超长文档的有效性,研究人员使用了Books3数据集。

为了评估效率,随机选择20本书,每本长度超过2048k个token,并使用256k的滑动窗口。

yy怎么自己的频道

从结果中可以看出,LongRoPE成功地将LLaMA2-7B和Mistral-7B的上下文窗口扩展到2048k,同时还在8k-128k的较短长度内实现了与基线相当或更好的困惑度。

还可以观察到2048k LLaMA2和Mistral之间的显著性能差异:Mistral在较短的长度上优于基线,但困惑度在超过256k长度时达到7

LLaMA2的性能与预期一致:随着时间的延长,困惑感会有所减少,在1024k和2048k时略有增加。

此外,在LLaMA2上,LongRoPE-2048k在256k比128k的微调长度下表现更好,主要是由于次级延伸比(secondary extension ratio)更小(即8倍对16倍)。

相比之下,Mistral在微调128k的窗口大小方面表现更好,主要原因是对于Mistral的128k和256k微调,研究人员遵循YaRN的设置使用16k训练长度,影响了Mistral在微调后进一步扩展上下文窗口的能力。

参考资料:

https://arxiv.org/abs/2402.13753


返回网站首页

本文评论
鸭屎香档次「杭州现鸭屎香冰淇淋:味道揭秘!原来鸭屎香是一种乌龙茶」
气温的上升,对爱吃冰淇淋的朋友越来越友好。据浙江日报分享,5月20日在杭州国际博览中心举行的第五届中国国际茶叶博览会,一款鸭屎香茶叶冰淇淋吸引了众多人的目光,卖12元一只。...
日期:05-21
京东众筹还有吗「上线8年 京东众筹将于10月10日起业务停运」
10月9日 消息:日前,京东众筹发布公告称,京东众筹业务将于2022年10月10日起暂停运营。最不值得购买的旗舰机刚买的手机可以直接贴钢化膜吗9月30日10点,京东众筹入口下线,已经上线...
日期:10-11
虎牙去年营收「虎牙2023年Q1财报:总收入19.5亿元,移动端MAU达8210万」
5月16日消息,虎牙公司(NYSE:HUYA)公布了2023年第一季度财报。财报显示,第一季度,虎牙公司总收入为19.5亿元。小米手机更新系统出现错误怎么办按照美国通用会计准则,2023年第一季度...
日期:05-16
RTK信号再升级!华测5星16频产品发布_华测rtk设置频率
  由于复杂环境因素限制,RTK测量不时会遇到没有信号的窘迫局面。拥有一款无惧遮挡、极速固定的RTK是测量人的普遍需求,也是仪器制造厂商不懈努力的方向。   3月1日,华测...
日期:07-16
火山翻译年度盘点:年底每天“干活”1.38亿次(第四届火山翻译)
  日前火山翻译团队发布《请翻译2020》年度盘点,详解过去一年上线的火山翻译Studio、火山同传等新品,以及在训练机器翻译模型过程中遭遇的技术难点和解决方案。2020年最后...
日期:07-16
中兴通讯发布业界首个T比特级全光接入平台_中兴 tegra3
中兴通讯发布业界首个T比特级全光接入平台 通信产业网|2023-10-25 18:16:03作者:消息来源:通信产业网近日,在法国巴黎举办的Network X展会期间,中兴通讯重磅发布了新一代Tbit级...
日期:10-26
中国联通马瑞涛:四方面着力构建中国联通智算网络
通信世界网消息(CWW)在AI加速行业发展的当下,中国联通在AI领域不断创新。近日,在第31届中国国际信息通信展览会上,中国联通正高级工程师马瑞涛表示,中国联通将致力于建设云算网一...
日期:07-03
b站做电商「裁员、翻车、搞电商:B站直播往何处去」
声明:本文来自于微信公众号卡思数据(ID:caasdata6),作者:林午,授权转载发布。2022年,B站直播部门陷在“裁员”风波里。4月,有消息称B站直播业务部门计划裁员,原因可能为入驻公会与...
日期:02-10
谷歌 Chrome 100 Beta 发布:标志着用户代理字符串开始终结
  3 月 6 日消息,谷歌浏览器和火狐浏览器都即将发布 100 版本,现在 Chrome 100 已经到达 Beta 通道。   谷歌在 Chromium 博客文章中写道:“Chromium 100 将是最后一个默...
日期:07-18
原型AirPods曾开发五种颜色 以匹配iPhone 7_airpod有别的颜色吗
凤凰网科技讯 6月1日消息,据科技媒体“MacRumors”报道,名为“ Kosutami ”的原型收藏家称,初代AirPods充电盒原型版本有五种不同的颜色可供选择,以匹配iPhone 7。图片曝光了初...
日期:06-01
扬州科技创新「Slush扬州青年科创节活动在广陵举行」
5 月 18 日,Slush扬州青年科创节活动在广陵公共文化中心开幕。市委常委、常务副市长陈锴竑,广陵区委书记张伟出席活动并分别致辞。市相关职能部门负责人,区委常委、常务副区长...
日期:05-22
荣耀产品经理谈“鸿燕”卫星通信:过程中踩了无数的坑 但我们不会独占
快科技12月27日消息,今天,荣耀旗舰手机产品经理李坤发布微博称,在鸿燕卫星通信攻坚的过程中,真的是踩了无数的坑,但我们并不会独占这套方案。网飞三体拍的怎么样了其表示,鸿燕卫星...
日期:12-27
近2万亿日元 三星台积电英特尔接连公布在日投资计划_三星台积电市值
2023/5/24 11:09 近2万亿日元 三星台积电英特尔接连公布在日投资计划 爱集微  王云朗 据亚洲日报报道,据日本业界和各公司消息,台积电、三星电子、美光科技和应用材料等主...
日期:05-26
2000元微信提现免费券你领没?官方领取攻略来了 秒懂「微信提现免费券在哪领」
快科技7月19日消息,众所周知,从微信将零钱提现到银行卡是需要支付0.1%的手续费的,用于平台运营成本、银行通道费等,虽然0.1%的手续费率不高,但如果提现金额较大,手续费也会增高。...
日期:07-19
高德地图呈现3D阿里动物园 网友:对路痴挺友好「高德有3D地图吗」
9月28日 消息:近日,高德地图正式宣布研发完成导航引擎“视界”,在该引擎驱动下,高德地图v12包含了沉浸导航、3D视界、数字领航员等核心功能。据介绍,3D视界是利用City-Model技术...
日期:10-02
小米9pro玩原神「骁龙8 Gen2神级调教!小米13 Pro《原神》游戏表现超所有iPhone/iPad」
喊出对标iPhone 14系列的小米13系列,至少在一个方面让老外很信服,那就是游戏表现。Golden Reviewer基于《原神》的测试成绩显示,小米13 Pro的表现完全超越了iPhone 14 Pro Max,...
日期:01-09
HeyGen 5.0官网体验入口 AI视频制作平台在线使用地址_hey ui官网
HeyGen 5.0标志着AI视频制作技术的新纪元。这款下一代AI视频平台,以其独特的数字化虚拟人物、语音转文本和视频翻译技术,为任何人提供了制作工作室级别高质量视频的能力。HeyG...
日期:03-22
华为鸿蒙os 2.0「华为鸿蒙OS 4.0曝光 P60原生搭载」
昨天下午华为在2022开发者大会中,余承东称HarmonyOS的华为设备已达3.2亿,较去年同期增长113%,鸿蒙智联产品发货量超2.5亿,较去年同期增长212%。随后在会上,华为终端BG首席运营官...
日期:11-08
不止是音乐生成!Udio还可以创作喜剧、演讲、电台广播等
4月15日 消息:上周,Udio的发布引发了网友的关注,上线当天网站还一度被网友挤崩。而现在,有网友又发现了新的“华点”。原来Udio的功能不止是音乐生成,它可以创作出各种音频内容,...
日期:04-15
有三星Galaxy Tab S9系列帮忙就够了 职场优雅办公
来源:中关村在线精致不失优雅,时刻从容高效,驰骋职场的精英们总能以这种独特的“松弛感”来迎接工作中的每一项挑战。而在这样极富魅力的态度背后,往往是有着高质量的效率和成熟...
日期:09-22