您的位置:首页 > 互联网

复旦研究团队揭示RoPE位置编码微调法则 LLaMA2上下文长度暴涨至100万tokens

发布时间:2023-10-22 17:48:16  来源:互联网     背景:

要点:

1. 复旦大学和上海人工智能实验室的研究团队发现,通过微调RoPE位置编码中的旋转角底数(base)这一超参数,可以显著提升大型模型的上下文长度,实现外推能力的稳定提升。

2. 他们提出了一套RoPE外推的缩放法则,可以根据预训练和续训文本长度来预测大模型的支持的上下文长度,并调整旋转角底数以提升外推表现。

3. 这项研究有望帮助大型模型更轻松地扩展其上下文窗口长度,增强外推能力,为自然语言处理等领域的应用提供更多潜力。

10月21日 消息:复旦大学和上海人工智能实验室的研究团队在一项新研究中,揭示了一项引人注目的发现:他们能够通过微调一个关键的RoPE位置编码中的超参数,显著扩展大型模型的上下文长度,从1.6万tokens延长至100万tokens,同时提升外推能力。这个超参数被称为旋转角底数(base),在RoPE位置编码中起着关键作用。

目前,大型模型如Claude2和GPT-4在支持上下文长度方面存在限制,不超过10万和3.2万tokens,一旦超出这些限制,模型会表现出困难和混乱。这项研究的发现有望解决这一问题,提供更大的上下文窗口长度以应对更复杂的任务。

论文地址:

https://arxiv.org/abs/2310.05209

Github仓库:

https://github.com/OpenLMLab/scaling-rope

国庆节新手机上市

研究的核心在于RoPE位置编码,它是Transformer架构的一部分,用于帮助模型理解词序信息。RoPE采用绝对位置编码的方式实现了相对位置编码的效果,但与相对位置编码相比,它在提升大型模型的外推能力方面表现更出色。

在这一领域的研究主要分为两大流派:一是限制注意力,包括代表研究如ALiBi、xPos、BCA等,以及MIT提出的StreamingLLM,可以实现无限的输入长度;二是调整旋转角,代表如线性内插、Giraffe、Code LLaMA、LLaMA2Long等。

LLaMA2Long研究提出了一种名为RoPE ABF的方法,通过微调旋转角底数,成功将大型模型的上下文长度从3.2万tokens延长至更大。这一超参数的微调是一种“开关”,使大型模型的外推表现更出色。然而,现有的研究仅在特定的旋转角底数和续训长度上进行微调,缺乏通用规律,以确保所有采用RoPE位置编码的大型模型都能稳定提升外推表现。

为了找到这一规律,复旦大学和上海AI研究院的研究人员进行了实验,他们分析了影响RoPE外推能力的各种参数,提出了“临界维度”(Critical Dimension)的概念,并总结出了RoPE外推的缩放法则(Scaling Laws of RoPE-based Extrapolation)。根据这一规律,可以根据不同的预训练和续训文本长度来预测大型模型的支持的上下文长度,然后相应地微调旋转角底数,以提升外推表现。

这项研究的实验结果显示,根据这一规律,大型模型能够在输入长度为10万、50万甚至100万tokens的情况下,实现外推而无需额外的注意力限制。这一规律也得到了包括Code LLaMA和LLaMA2Long在内的大型模型外推能力增强工作的验证。

总的来说,这项研究为大型模型提供了一种通用的方法,通过微调RoPE位置编码的超参数,轻松扩展上下文窗口长度,增强外推能力。这一规律的发现将有望进一步改善大型模型在自然语言处理等领域的性能,并提供更多应用潜力。


返回网站首页

本文评论
KaDa故事升级为“KaDa阅读”,致力成为3-12岁少儿数字化阅读解决方案提供者
在世界读书日到来之际,KaDa故事正式宣布品牌升级为“KaDa阅读”,在原有绘本童书馆基础上,拓展“精读”、“精讲”类阅读产品,专注于为3- 12 岁孩子提供科学的数字阅读解决方案。...
日期:04-21
联发科将开发集成英伟达GPU芯粒的汽车SoC「联发科将开发集成英伟达GPU芯粒的汽车SoC」
联发科宣布与英伟达达成合作协议,为软件定义汽车提供完整的AI智能座舱解决方案。2020年618时三星s20多少钱在该方案中,联发科将开发汽车SoC,将英伟达GPU芯片集成入其中,并搭载英...
日期:09-26
coloros内测申请「ColorOS 14.0内测版已开放招募 OPPO-Find X3 Pro手机用户招募」
来源:中关村在线OPPO Find X3 Pro手机用户招募:ColorOS 14.0内测版已开放招募感谢网友提供线索,让我们了解到OPPO Find X3 Pro手机已开启ColorOS 14.0内测的nolog用户招募。此...
日期:10-18
金山软件与小米重续至2025年的三年度现有框架协议交易
12月31日 消息:金山软件发布公告称,为重续截至2025年12月31日止未来三个年度现有框架协议项下之交易,本公司与小米集团订立框架协议。据此:集团将向小米提供若干综合服务,主要...
日期:12-31
联合共创_联合共创集团
(原标题: | 云科携手联通数科推出首款攻击面管理共创产品) 日前,云科安信加入联通数科云安链企共创计划,联合打造共创产品——攻...
日期:09-21
Lumia 950 XL 被移植运行 Win10X :界面 UX 自适应,全新操作 / 通知中心_lumia 950xl刷win10
  1 月 24 日消息 外媒 Windows Latest 报道,微软对 Windows 未来的愿景是为所有形态因素设计操作系统,据此可以根据软件为不同的姿态设备专门定制功能。   这个项目最初...
日期:08-24
SpaceX 火箭在运输途中出车祸:撞上一座桥 NASA 称正在评估损坏情况|SpaceX|NASA|火箭
作者:汪淼;   IT之家;7 月 23 日消息,一枚 SpaceX 火箭在前往该公司位于加利福尼亚州霍桑的工厂途中发生意外,拖车在通过一座离地间隙较低的桥时与其相撞。   SpaceX 的运...
日期:08-01
QQ邮箱最大“羊毛”没了!最大免费容量16G 扩容15元每月「qq邮箱免费空间有多大」
QQ邮箱作为国内老牌邮箱,也是目前国内最流行的邮箱之一,除了QQ号直接当做邮箱较为方便之外,其功能性体验也很是在线。对于经常有大文件传输需求的朋友来说,QQ邮箱绝对是个良心存...
日期:11-14
微软必应聊天Bing Chat将引入Open AI图像生成工具 DALL-E3_微软的必应
9月22日 消息:微软宣布 Bing Chat 将引入OpenAI图像生成工具 DALL-E3,并面向 “一小部分用户” 进行推出。联想yoga2022新品发布会DALL-E3的集成采用了 ChatGPT 技术,与 DALL-...
日期:09-22
摆脱手机依赖症的app「变现经验 | 我开发了一个戒掉“手机依赖症”的APP 月入14万元」
这是分享产品变现、开发者故事最新一期内容。“手机成瘾”已经成为当代很多人的通病,将很多时间浪费在玩手机上并影响了身心健康。国外开发者Martin Morávek (马丁 · 莫拉维...
日期:11-08
华为首次发布隐私保护治理白皮书:隐私保护是公司最高纲领「关于华为隐私保护框架的说法中」
11月7日下午,2022华为网络安全与隐私保护合规治理论坛在华为全联接大会期间举办。论坛以共筑安全可信,护航数字化转型”为主题,汇聚业界专家学者、行业精英等,共同探讨在行业数...
日期:11-11
创新创业中关村—领创路演|人工智能专场圆满结束(中关村机器人创新中心)
  8月27日,济南中关村领创路演——人工智能专场在济南·中关村信息谷创新中心举行。本次路演由济南·中关村信息谷创新中心、维基咨询、猩创客联合主办,济南市民营经济局、...
日期:06-27
210W不是终点!更高功率快充正在路上:不到10分钟满电_苹果20w快充充满要多久
骁龙旗舰芯、大底主摄、高刷屏、旗舰散热......”,你有没有发现,今天的智能手机同质化现象愈发严重,各家旗舰手机的核心硬件配置几乎完全一致,如何利用差异化卖点打动用户成了厂...
日期:10-04
知名奢侈手表品牌,高品质沛纳海尽显浪漫格调_沛纳海是顶奢
爱是一瞬的心动,爱亦是长久的陪伴。在情韵至盛的 520 来临之际,不妨用腕表传递爱,将甜蜜与眷恋注入点点滴滴,铭记难忘的每个瞬间。在这个浪漫的日子里,手表品牌排行榜的沛纳海甄...
日期:05-19
Canalys预测:2027年将有60%的个人电脑兼容AI功能 出货量预计超过1.75亿台
9月25日 消息:科技市场独立分析机构Canalys对具备AI兼容能力(简称兼容AI)的个人电脑进行初步的定义,并预计兼容AI的个人电脑在未来四年快速渗透整个市场。Canalys认为,“兼容AI...
日期:09-25
2023百强县出炉 千亿县达54个:前4名都在江苏、昆山率先破5000亿_全国百强县 昆山
7月25日,赛迪顾问发布《2023中国县域经济百强研究》,其中GDP超过千亿元的达到了54个,合计8.6万亿元,占全国经济总量的7.1%。小鹏汽车2021年2月份销量一个县(市/旗)要想进入这份名...
日期:07-25
天猫618红包有效期是多久「2023年京东天猫淘宝618红包领取口令入口在哪里什么时候开始?」
2023 年淘宝、天猫、京东 618 红包活动已开始,以为大家准备了淘宝、京东、天猫 618 红包口令,按下面的教程去使用天天都可以领取 1 次 618 红包。映客股权结构一、 2023 年淘...
日期:05-24
iPhone 15在泄露的照片中出现了绿色款式_iphone照片发绿
泄露的iPhone 15的照片显示,苹果可能会为新系列增加绿色。最近,有消息称苹果可能会推出全新的灰色iPhone 15 Pro。百度智能云战略折叠屏手机发展趋势2022年苹果11换一加9r值得...
日期:09-02
特斯拉2020新款model3价格「2023新款要来了 特斯拉Model 3再度降价:更超值」
经查,特斯拉悄然调整了Model 3和Model Y在北美的价格。其中后轮驱动版Model 3也就是标准版,下调500美元,降至43490美元(约合29万元)。手机开关键不灵了怎么办?Model 3性能版价...
日期:02-05
茶颜悦色回应南京开业风波:深感抱歉,将调整营业时间_南京什么时候有茶颜悦色
讯 8月19日上午消息,针对茶颜悦色南京开业引发的舆论风波,茶颜悦色发文致歉。“因为还没开业,黄牛代购200元一杯茶颜悦色的热搜就被挂在了榜上;以及昨天10几个热搜连环出现,因为...
日期:08-19