您的位置:首页 > 互联网

匿名论文提出奇招,增强大模型长文本能力居然还能这么做

发布时间:2024-02-04 10:48:44  来源:互联网     背景:

声明:本文来自于微信公众号量子位(ID:QbitAI),作者:丰色,授权转载发布

一提到提高大模型长文本能力,就想到长度外推或者上下文窗口扩展?

不行,这些都太费硬件资源了。

来看一个奇妙新解:

和长度外推等方法使用KV缓存的本质不同,它用模型的参数来存储大量上下文信息。

具体办法就是建一个临时Lora模块,让它仅在长文本生成过程中“流式更新”,也就是用先前生成的内容不断作为输入来充当训练数据,以此保证知识被存进模型参数中。

然后一旦推理完成,就丢掉它,保证不对模型参数产生长久影响。

这个方法可以让我们不用扩展上下文窗口的同时,随便存储上下文信息,想存多少存多少。

实验证明,这种方法:

  • 既可以显著提高模型长文本任务质量,实现困惑度下降29.6%,长文本翻译质量(BLUE得分)提高53.2%;

  • 还能兼容并增强现有大多数长文本生成方法。

  • 最重要的是,能大大降低计算成本。

在保证生成质量小幅提升(困惑度降低3.8%)的同时,推理所需的FLOPs降低70.5%、延迟降低51.5%!

具体情况,我们翻开论文来看。

建个临时Lora模块用完即丢

该方法名叫Temp-Lora,架构图如下:

其核心就是以自回归的方式用先前生成的文本上逐步训练临时Lora模块。

该模块适应性很强可以不断调整,因此对不同远近的上下文都能深入理解。

具体算法如下:

在生成过程中,token是逐块生成的。每次生成块时,使用最新的Lxtoken作为输入X生成后续token。

一旦生成的token数量达到预定义的区块大小∆,就使用最新的块启动Temp-Lora模块的训练,然后开始下一个块生成。

在实验中,作者将∆+Lx设置为W,以充分利用模型的上下文窗口大小。

对于Temp-Lora模块的训练,如果在没有任何条件的情况下,学习生成新的块可能构不成有效的训练目标,并导致严重的过拟合。

为了解决这个问题,作者将每个块前面的LT标记合并到训练过程中,将它们用作输入,将块用作输出。

最后,作者还提出了一种称为缓存重用(Cache Reuse)策略来实现更高效的推理。

一般来说,在标准框架中更新Temp-Loramo模块后,我们需要使用更新的参数重新计算KV状态。

或者,重用现有的缓存KV状态,同时使用更新的模型进行后续的文本生成。

具体来说,只有当模型生成最大长度(上下文窗口大小W)时,我们才使用最新的Temp-Lora模块重新计算KV状态。

这样的缓存重用方法就可以在不显著影响生成质量的情况下加快生成速度。

关于Temp-Lora方法的介绍就这么多,下面主要看测试。

文本越长,效果越好

作者在Llama2-7B-4K、Llama2-13B-4K、Llama2-7B-32K以及Yi-Chat-6B模型上上对Temp-Lora框架进行了评估,并涵盖生成和翻译这两类长文本任务。

测试数据集一个是长文本语言建模基准PG19的子集,从中随机抽取了40本书。

另一个是来自WMT2023的国风数据集的随机抽样子集,包含20部中文网络小说,由专业人员翻译成英文。

首先来看PG19上的结果。

下表显示了PG19上带有和不带有Temp-Lora模块的各种型号的PPL(困惑度,反映模型对于给定输入的不确定性,越低越好)比较。将每个文档划分为0-100K到500K+token的片段。

可以看到,所有型号经过Temp-Lora之后PPL都显著下降,并且随着片段越来越长,Temp-Lora的影响更加明显(1-100K仅降低3.6%,500K+降低13.2%)。

因此,我们可以简单地得出结论:文本越多,使用Temp-Lora的必要性就越强。

此外我们还能发现,将块大小从1024调整到2048和4096导致PPL略有增加。

这倒是不奇怪,毕竟Temp-Lora模块是在之前块的数据上训练的。

这个数据主要是告诉我们块大小的选择是生成质量和计算效率之间的关键权衡(进一步分析可以查阅论文)。

最后,我们还能从中发现,缓存重复使用不会导致任何性能损失。

作者表示:这是一个非常令人鼓舞的消息。

苹果将在iphone投入更多广告

下面是国风数据集上的结果。

iphone6s钉子户

可以看到,Temp-Lora对长文本文学翻译任务也有显著影响。

与基础模型相比,所有指标都有显著改进:PPL降低了-29.6%,BLEU得分(机器翻译文本与高质量参考翻译的相似度)提高了+53.2%,COMET得分(也是一个质量指标)提高了+8.4%。

最后,是计算效率和质量方面的探索。

作者经实验发现,使用最“经济”的Temp-Lora配置(∆=2K,W=4K),能将PPL降低3.8%的同时,节省70.5%的FLOP和51.5%的延迟。

相反,如果我们完全忽略计算成本,使用最“豪华”的配置(∆=1K和W=24K),也可以实现5.0%的PPL降低,并额外增加17%的FLOP和19.6%的延迟。

使用建议

总结以上结果,作者也给出了实际应用Temp-Lora的三点建议:

1、对于需要最高级别长文本生成的应用,在不更改任何参数的情况下,集成Temp-Lora到现有模型中,就能以相对适中的成本显著提高性能。

2、对于看重最小延迟或内存使用的应用,可以通过减少输入长度和在Temp-Lora中存储的上下文信息来显著降低计算成本。

在这种设置下,我们可以使用固定的短窗口大小(如2K或4K)来处理几乎无限长的文本(在作者的实验中为500K+)。

3、最后,请注意,在不含大量文本的场景中,例如预训练中上下文比模型的窗口大小还小,Temp-Lora就是毫无用处的。

作者来自保密机构

值得一提的是,发明这么简单又创新的办法,作者却没有留下太多出处信息:

机构名称直接落款“保密机构”,三位作者的名字也只有完整的姓。

不过从邮箱信息来看,可能来自港城大、港中文等学校。

最最后,对于这个方法,你觉得怎么样?

论文:

https://arxiv.org/abs/2401.11504


返回网站首页

本文评论
抖音核销员记录在哪里查看「抖音开放平台宣布开放抖音小程序核销工具解决方案」
5月26日 消息:今日,抖音开放平台宣布开放抖音小程序核销工具解决方案,帮助生服商家更好的解决核销问题,提升经营效率。核销工具是消费者在抖音购买团购券后,直接可在抖音小程序...
日期:05-27
iphone12直降800「iPhone 13系立减800 和iPhone 14没差但只4388」
iPhone14和iPhone 13的芯片相同,都是用的是A15芯片,而性能方面有差不太多,所以导致了iPhone 14在首销当日就出现了破发情况,而10月7日iPhone 14 Plus首销当日就立减400多元破发,...
日期:10-14
特斯拉前 AI 高级总监宣布回归马斯克创立的 OpenAI「特斯拉董事长兼首席执行官马斯克」
2月9日消息:特斯拉前AI高级总监Andrej Karpathy在推特上发文表示,自己将再次加入OpenAI。这是一家最初由特斯拉CEO马斯鹕共同创立的人工智能初创公司。苏宁电器还有以旧换新...
日期:02-09
韵达辟谣“公司要倒闭”传言:故意抹黑、我们仍然排第二!_关于韵达最近的新闻
2月12日晚,韵达速度官方微博发布了一则关于近期网络传言的澄清公告”。韵达表示,客服不受理”、营收不盈利”、公司要倒闭”等等近期网络传言,皆为不实之词,是个别网络账号故意...
日期:02-13
分析师:美国封锁华为芯片将会阻碍创新、分裂全球(美国对华为的芯片封锁)
  美国继续加大对华为和其他中国科技公司的制裁,旨在阻止中国在关键技术领域赶上或超越美国,但它们却产生了无人想要的副作用。虽然大多数IT经理并没有直接从华为或其他中...
日期:07-14
米聊iPhone版更新至1.9 附近好友查询功能上线
  LBS功能的日益火爆,让“查找附近好友”这一功能成为机友们津津乐道的话题:房屋租赁、二手货交易、交友等LBS应用逐渐流行。在更新至1.9版本之后,米聊iPhone版也支持附近好...
日期:07-23
首发用户赚了!一年前的iPhone 13 Pro渠道价上涨:接近首发价「苹果13pro市场溢价」
今日消息,手机店主测评小铺晒出了iPhone 13 Pro线下渠道报价,全新机价格明显上涨,已经接近首发价格了。如表格所示,iPhone 13 Pro 256GB远峰蓝渠道报价是8800元,比官网首发价格贵...
日期:11-28
5G-A产业发展研讨会开启“未来”网络!_5g产业链报告
物联网正在重塑各行各业、驱动全球社会经济变革,物联网技术驱动的全球数字经济产值今年预计将超过20万亿美元,到2030年,产值更是有望超过40万亿美元。目前,我国物联网连接数已经...
日期:11-25
苏宁与美的、华为、苹果等家电3C品牌“云签约”
  “2月27日起,苏宁将全面联合家电、家装、电脑、手机等品类品牌,线上线下推出‘购家电家装手机,享24期分期免息’活动,让消费者零负担就可以拥有喜欢的好物!”2月24日晚,苏宁...
日期:01-21
大兴国际机场今日开航!微信支付全面接入,助力数字化出行(大兴机场线微信支付)
  微信支付“飞到”北京大兴国际机场了!9月25日,北京大兴国际机场正式投运,“新国门”开启,微信支付也来了。目前,微信支付正全面接入机场商场及各大品牌,为旅客带来更多便捷...
日期:02-16
星际公民i5「游戏史上最贵捆绑包!《星际公民》推出34.4万元大礼包」
快科技1月5日消息,据媒体报道,游戏《星际公民》推出了游戏史上最贵的捆绑包,售价高达4.8万美元,折合人民币约为34.4万元。订单自动化管理苹果12pro拍照得分要知道,根据《福布斯》...
日期:01-06
WeShop唯象妙境官方体验地址 AI电商照片软件推荐_唯象方法
蘑菇街WeShop唯象妙境是一个AI商拍工具,它可以让用户通过简单的文字指令,生成各种风格和场景的图片内容,例如服装模特、营销海报、产品图等。用户还可以上传自己的图片,让AI进行...
日期:12-01
女子高铁抽烟列车长霸气回应「大爷高铁上抽烟致强制减速 女家属:不就是抽根烟」
2月6日,江苏南通,一大爷在乘坐高铁时抽烟,因烟雾报警器响起导致高铁强制减速。到站后,大爷被民警带下高铁,结果大爷和旁边的家人情绪非常激动,一直和民警争吵,大爷试图冲过阻拦,重新...
日期:02-10
virtual solution「Virtualitics 获得3700万美元融资,推动基于AI的3D数据探索」
本文概要:1. Virtualitics 是一家提供基于人工智能的3D 数据探索平台的初创公司,最近宣布获得3700万美元的 C 轮融资。2. Virtualitics 的平台可以帮助企业分析和理解复杂的...
日期:08-11
乐视回应被强制执行2.4亿罚款:路要一步一步走_乐视汽车遭强制执行3000万
  IT之家8月27日消息,近日,北京金融法院裁定准予强制执行证监会针对被执行人乐视网2.4亿元罚款的行政处罚。  对此,乐视发布公告:路要一步一步走债要一点一点还:诺基亚裁掉大...
日期:08-27
小米造车1000天,投了100亿、开了超150辆车的雷军要讲讲技术_小米确定造车或由雷军带队
出品 | 科技作者 | 张雅婷小米宣布造车的第1000天后,小米汽车技术发布会正式定档12月28日。有爆料显示,小米预计将展示小米汽车的外观设计,以及澎湃车机、智能驾驶、三电系统等...
日期:12-27
售价12.39万起!全新哈弗大狗上市 新增2.0T四驱版本
快科技7月25日消息,日前,全新哈弗大狗正式上市,此次新车共推出3款车型可供选择,官方指导价为12.39万-14.99万元。全新车型主要针对外观与配置进行调整,新增2.0T四驱车型。外观来...
日期:07-25
微软开发新型大模型压缩方法SliceGPT_模型压缩综述
1月29日 消息:SliceGPT是微软开发的一种新型的大语言模型压缩方法。通过SLICE GPT,可以在保持99%,99%,和90%零样本任务性能的同时,将LLAMA2-70B、OPT66B和Phi-2模型分别去除高达...
日期:01-29
库克收入「库克总薪较前年缩水超3500万美元 同比下降 36%」
1月12日 消息:苹果公司近日发布了年度报告,详细披露了公司高管薪酬、股东提案等重要信息。其中,首席执行官蒂姆·库克的薪酬成为关注的焦点。根据报告,库克在2023年的总收入为6...
日期:01-12
新晋诺奖得主斯万特·帕博:人类的本质
  来源:澎湃新闻  【编者按】  北京时间10月3日下午,瑞典科学家斯万特·帕博(Svante Pääbo)获得“2022年诺贝尔生理学或医学奖”,表彰他对已灭绝人种的基因组和人类进化...
日期:10-05