您的位置:首页 > 互联网

LongLoRA:提升LLM上下文能力的创新微调方法

发布时间:2023-10-07 18:57:03  来源:互联网     背景:

要点:

1. LongLoRA是一种创新的微调方法,可以显著增强大语言模型的上下文处理能力,而无需消耗大量算力资源。

2. LongLoRA采用了两大步骤的高效微调方法,包括使用转变短注意力(S2-Attn)和有效扩大上下文的技巧,可以在不同任务上取得出色的结果。

3. LongLoRA展示了大型语言模型在处理更多信息时能力的提升,尤其擅长处理长文本和长对话中的特定主题,为处理复杂任务提供了新的可能性。

10月7日 消息:LongLoRA是一种全新的微调方法,旨在提高大语言模型(LLM)的上下文处理能力,而无需过多的算力资源。传统上,增加LLM的上下文处理能力需要大量的算力支持,但LongLoRA采用了创新的方法,使LLM能够处理更长的文本和更多的信息。这种方法的核心是采用了两大步骤的高效微调方法。首先,它使用了一种称为转变短注意力(S2-Attn)的新型注意力形式,该方法能够在训练过程中节省计算能力,同时保持了高效性。其次,LongLoRA重新挖掘了一种名为LoRA的方法,用于有效扩大训练信息的上下文。这个方法在与可训练的嵌入和规范化一起使用时非常有效。

开源地址:https://github.com/dvlab-research/LongLoRA

小米摄像头2云台

论文地址:https://arxiv.org/abs/2309.12307

LongLoRA的优势在于它能够在各种任务上取得出色的结果,并且可以与不同大小的LLM一起使用。它可以将用于训练的数据量从4k增加到100k,对于另一个模型,可以增加到32k,而所有这些都可以在一台强大的计算机上完成,与其他技术兼容性良好,不会改变原始模型设计架构。

研究还发现,随着上下文大小的增加,模型的性能更好,这证明了LongLoRA微调方法的有效性。使用更多信息进行训练可以带来更好的结果,例如,一个模型的困惑度性能从2.72降低到2.50,当上下文窗口从8192增加到32768时。此外,LongLoRA还在处理长对话中找到特定主题方面表现出色,与竞争对手相比,它更有效地适应开源数据。

LongLoRA提出了一种创新方法,使大型语言模型能够更轻松、更高效地处理大量信息,而无需消耗大量算力资源。它在处理长文本和复杂任务方面表现出色,为语言模型领域带来了新的可能性。


返回网站首页

本文评论
全面屏iPhone要来了!苹果新专利可设计屏下Face ID_apple全面屏
近日,据报道,苹果公司最新推出了一项专利技术——屏下Face ID。该技术可以在屏幕下方嵌入多种传感器,实现全面隐藏开孔、接口、听筒等设计。华为p60手机效果图谷歌tensor相当于...
日期:06-03
菜鸟将投2亿:补贴快递员爬楼送货上门「菜鸟补贴快递公司方案」
你的快递会有小哥爬楼送货上门吗?三体动漫上线了吗魅族mx3安卓版本为了改善用户体验等,1月10日,菜鸟宣布启动快递员爬楼送货上门以及春节不打烊补贴计划。据悉,从春节开始,菜鸟全...
日期:01-10
每天工作11小时、一周无休:《蜘蛛侠:纵横宇宙》被曝压榨员工「蜘蛛侠:终极维度」
6月25日消息,近日,4位曾参与《蜘蛛侠:纵横宇宙》创作的员工透露,该作的制作过程异常艰巨,有约100名美术人员在制作完成前就不堪重负而离职。这与该作的编剧、制片人菲尔洛德有密...
日期:06-26
比亚迪方程豹品牌暨技术发布会
8月16日19:30,比亚迪将举办方程豹品牌暨技术发布会,将正式发布方程豹品牌、技术和产品。此次,方程豹品牌暨技术发布会的活动主题为“豹力全开 共赴山海”。首款量产车方程豹豹5...
日期:08-17
每日优鲜被冻结92万余元财产_每日优鲜买到过期食品怎么赔偿
财联社8月19日电,裁判文书网近日公开了北京市恒慧通肉类食品有限公司与北京每日优鲜电子商务有限公司民事裁定书。其中显示,北京市恒慧通肉类食品有限公司向法院提出诉前财产...
日期:08-20
苹果挖孔屏手机「iPhone 15系列将于8月量产 全系采用挖孔屏设计」
据海通国际科技研究的分析师Jeff Pu最新预测,苹果计划在9月份推出全新的iPhone 15系列手机。目前,供应链已经开始试产,预计很快就会进入正式量产阶段。据预测,iPhone 15系列将于...
日期:07-09
央视:近七成晚睡是因为手机 睡前刷刷反而适得其反「睡前刷手机影响睡眠」
中关村在线消息:10月10日,央视网官方发布了一则有关“晚睡”的博文:现在困扰人们睡眠的头号难题是睡不着,而根据调查显示,近七成晚睡都与睡前刷手机有关,有很多用户都喜欢在睡觉前...
日期:10-14
哈啰假日狂欢节期间APP日活突破1500万 增速超40%_哈啰出行第二届科技开放日
10 月 9 日消息,哈啰公布首届假日狂欢节战报。战报显示,哈啰假日狂欢节从 9 月 23 日持续至 10 月 7 日,持续两周的大促活动吸引了超过 1000 万用户参与,平台累计发放福利覆盖用...
日期:10-14
一加8pro和ace2「散热最强骁龙8 Gen2!一加Ace2 Pro官宣定档8月」
快科技8月1日消息,今天,一加手机官方正式宣布,一加Ace2Pro将在8月正式发布。同时,中国区总裁李杰宣布,一加Ace2Pro将是一款超越一加Ace2的,更为现象级的爆款新机。这种自信,显然来...
日期:08-01
软通动力:打造新基建时代的“数字生态英雄”
  近日,以“新基建、新生态、新未来”为主题的中国数字生态英雄会举行。这场旨在打造国内数字生态领域厂商、方案商和创新企业汇聚的行业领袖思想盛会,聚集了当下中国数...
日期:07-14
云鸟科技物流助理_云鸟科技:“降本增效”有妙招,促进智慧物流大发展
  云鸟科技目前从市场上各方面来看,都称得上一家很有发展前景的公司。云鸟科技的优势在于紧跟互联网时代硬核技术的步伐,依靠大数据、云计算和人工智能的配合运转,这种“黑...
日期:04-02
继续爆投资圈残酷内幕:给钱之前要不要先算命?
声明:本文来自于微信公众号 铅笔道(ID:pencilnews),作者:铅笔道编辑部,授权转载发布。昨天,铅笔道发布文章曝一个投资圈恶毒真相:罗永浩也没能躲过,在创投圈被火热转发。不少创业...
日期:01-10
集合准备团战!推了这波百度团圆红包拿下上万软妹币不是梦(进战队 百度app搜索【团圆红包31700】)
  自打小年一过,这手机上的红包活动就开始满天飞。支付宝集五福、微博明星送祝福微博上……老几样如往年一样,成功引起羊毛党的注意。这其中,在今年成功拿下了央视春晚的独...
日期:11-01
大模型 ai「大模型激战:能否再造20年前互联网盛景」
声明:本文来自于微信公众号零态LT(ID:LingTai_LT),作者:吴江华,授权转载发布。Chat GPT引发的大模型混战,像极了20年前的互联网。近两个月中,已经有包括百度、阿里巴巴、字节跳动等...
日期:04-24
印度首次成为iPhone第五大市场,出货量同比增长50%_印度 iphone
IT之家 7 月 19 日消息,根据市场调查机构 Counterpoint Research 公布的统计数据,2023 年第 2 季度印度市场营收表现首次超过法国和德国,成为苹果第五大 iPhone 市场。出货量同...
日期:09-20
华为 u8110「华为 u8230」
华为 U8110是一款华为公司于2010年推出的智能手机。该款手机使用的是安卓2.2系统,搭载了高通MSM7225处理器,内置了256MB RAM和512MB ROM存储空间,并支持最高32GB的扩展存储。在...
日期:05-30
华为芯片断供以后如何发展_芯片断供两年后,华为手机的现状?
回答这个问题之前,我们来看看华为的辉煌时刻2019年三星手机全球出货量为3亿部,市场占比21.8%,华为手机全球出货量2.4亿部,市场占比17.6%,较去年的14.4%有所增长。2020年二季度,华...
日期:08-19
百度网盘朝云数字藏品转赠功能上线_百度云数字咋用啊?
3 月 9 日讯:百度网盘宣布朝云数字藏品转赠功能上线,百度网盘APP-【我的】-【数字藏品】页面-【我的藏品】-进入【藏品详情页】-右下角点击【转赠】-【立即转赠】,按照提示进...
日期:03-09
春节如何赢得长辈欢心?快来看百度的“春节自救指南”!
  又到了家里亲戚们即将欢聚一堂然后团结一心、集体向你发起灵魂拷问的总攻的时刻了。   “有对象了没?”   “在哪上班啊?工资多少哇?”   “啥时候买房啊?”  ...
日期:02-01
剖析金融新基建,解决“触点、场景、底层平台”成关键趋势之一
  神策数据在《金融新基建系列报告——银行业六大中期趋势展望》中,列举并阐述了新基建背景下的银行业六大趋势。其中趋势三为:优化客户旅程并提升旅程管理能力,是银行胜出...
日期:07-16