您的位置:首页 > 互联网

新微调方法LongLoRA可低成本提升LLM上下文理解能力

发布时间:2023-09-26 21:32:37  来源:互联网     背景:

文章概要:

1. 长文本理解突破:MIT与香港中文大学合作研发出LongLoRA,一种优化方法,可提升大型预训练语言模型(LLM)的上下文理解能力,而无需大量计算资源。

2. 训练方法创新:研究人员采用稀疏本地关注与参数高效调优策略相结合的方法,显著降低了训练成本,同时保持性能。

3. 上下文长度的关键性:文章讨论了上下文长度对LLM性能的影响,强调了在某些情况下,上下文长度比模型参数数量更为重要。

美股集体收高!纳指涨超2%

9月26日 消息:近日,麻省理工学院(MIT)与香港中文大学联手开发了一项名为LongLoRA的新微调方法,为大型预训练语言模型(LLM)的发展提供了全新的途径。这一方法被设计用来增强LLM对上下文的理解能力,而无需过多的计算资源,为经济型超大LLM的构建铺平了道路。

LLM在自然语言处理领域发挥着巨大的作用,但通常需要巨大的计算资源来进行训练。文章指出,训练一个具有8192长度上下文的模型,相比于2048长度上下文,需要16倍的计算资源。而上下文长度实际上代表了LLM在回应给定提示时对整个上下文的清晰理解能力,这对于模型的性能至关重要。

图源备注:图片由AI生成,图片授权服务商Midjourney

LongLoRA方法的创新之处在于研究人员采用了两种关键方法来拓展LLM的上下文理解能力。首先,他们采用了稀疏本地关注,具体是“shift short attention(S2-Attn)”方法,通过这一方法在Fine-tuning过程中,高效地实现了上下文的拓展,同时保持了与标准关注机制相似的性能水平。

其次,研究人员重新审视了参数高效调优策略,发现结合可训练的嵌入和标准化方法的LoRA在上下文扩展方面非常有效。LongLoRA在多个任务中都获得了强大的实验结果,使用了LLaMA2模型,从7B/13B到70B不等。这一方法可以将模型的上下文从4k扩展到100k,适用于LLaMA27B,或者从32k扩展到LLaMA270B,而仅需要一台8× A100机器。值得注意的是,LongLoRA保持了原始模型架构,并与各种现有技术兼容。

为了提高LongLoRA方法的实用性,研究团队还创建了LongQA数据集,用于监督Fine-tuning,包括超过3,000个问题-答案对,其中包含了详细的上下文。

amd主板内存条插哪两个接口

研究的关键发现包括对长序列语言建模的评估,研究发现,通过更长的上下文训练,模型的性能得到了提升,这显示了他们Fine-tuning方法的有效性。另外,研究还探讨了这些模型在单台机器上能够处理的最大上下文长度,发现即使在较小的上下文长度下,模型仍然表现出色。此外,研究还进行了基于检索的评估,测试了模型在寻找长对话中特定主题的任务中的表现,结果显示,这些模型在某些情况下甚至优于同类竞争模型,并且更高效地适应了开源数据。

最近的讨论中,关于LLaMA和Falcon等语言模型的性能已经开始超越了更大模型(如GPT-4或PaLM),焦点逐渐从增加模型参数数量转向了上下文令牌数量或上下文长度的考虑。文章还引用了一项研究,指出与常见误解相反,较长的输入文本并不总是导致更好的输出。实际上,在将较长的文章输入模型(例如2000字)时,模型通常只能理解前700-800字的内容,之后生成的回应可能会变得不太连贯。这一现象类似于人类记忆的工作方式,信息的开头和结尾通常比中间部分更容易被记住。

LongLoRA方法的推出为经济型超大LLM的发展提供了新的路径,通过优化上下文理解能力,降低了训练成本,有望推动自然语言处理领域的进一步发展。


返回网站首页

本文评论
小米12多少钱「小米2s多少钱」
小米2s,是小米公司于2013年4月9日推出的一款智能手机。这款手机拥有强大的性能和优秀的用户体验,一经推出就受到了市场和用户的追捧。那么,小米2s的价格是多少呢?首先,需要说明的...
日期:05-31
俄媒:中国智能手机在俄销量激增(俄罗斯智能手机市场份额)
参考消息网8月13日报道 据今日俄罗斯电视台网站报道,俄罗斯《生意人报》11日援引行业数据报道,中国品牌已经挤掉世界最大智能手机销售商苹果和三星,占据了俄罗斯智能手机市场的...
日期:08-16
台积电十大股东中国半导体技术落后欧美「30年来第三次易主 台积电将取代三星、Intel成为半导体一哥」
全球半导体行业的排名可能又一次被颠覆,这一次上位一哥的是台积电,以全球最大的晶圆代工厂荣登第一,超越三星、Intel。从1992年起,Intel成为全球半导体市场的一哥,营业额领先其他...
日期:10-11
iphone天气小组件不见了「苹果天气小组件现大范围bug:无任何数据」
4月1日 消息:今日早间,不少苹果用户在反馈称:苹果天气小组件现大范围bug。根据部分网友反馈,iPhone上自带的天气App似乎崩了,无法显示数据。有的用户表示,就算重启手机也无法恢...
日期:04-01
用前沿技术为生活添彩 腾讯优图 “AI画廊”于2021重庆智博会初次登场
  8月23日,2021中国国际智能产业博览会(以下简称“智博会”)在重庆国际博览中心正式开幕。大会以“智能化:为经济赋能,为生活添彩”为主题,紧扣工业互联网、智能制造、工业软...
日期:07-17
全球服务器市场规模_报告:预计今年全球服务器出货 1700 万台,同比增长 4.5%
  12 月 3 日消息,研调机构 DIGITIMES Research 最新报告显示,由于芯片短缺,多家服务器设计代工(ODM)厂出货进度延迟。受此影响,预计 2021 年全球服务器出货约 1700 万台,同比...
日期:07-17
塞尔达传说国王去哪了「塞尔达传说王国之泪5月11日晚上几点解禁 数字版几点可以玩」
塞尔达传说王国之泪马上就要在5月12日正式发售了,但是在我们国内5月11日就可以开始玩了,很多玩家还不清楚几点可以玩,下面就来为大家分享一下。塞尔达传说王国之泪攻略汇总地图...
日期:05-11
白玉兰奖完整名单出炉 年初大热电视剧《狂飙》挂零陪跑_白玉兰奖2018
日前第28届上海电视节白玉兰奖正式公布,最受关注的中国电视剧单元中,雷佳音获得最佳男主角奖,吴越获得最佳女主角奖,不过年初大热的电视剧《狂飙》颗粒无收,陪跑了。最佳电视剧中...
日期:06-24
武汉放风筝去哪里好「武汉风筝节遇上大风天!巨型风筝把人“卷”上天」
4月26日消息,在湖北武汉木兰草原国际风筝赛现场,一名男子被巨型风筝卷上天后,在众人惊呼声中落回地面。现场工作人员表示,风太大把当事人吹上了天空,该男子是专业的风筝放飞员,对...
日期:04-26
正式加入联合国全球契约组织,趣链科技为全球可持续发展献力_联合国全球契约组织如何加入
近日,趣链科技成功通过联合国全球契约办公室审核,正式加入联合国全球契约组织(UNGC)。这不仅是对公司多年来践行社会责任的充分肯定,同时也代表着趣链科技以中国区块链领军企业的...
日期:08-22
惠普打印机安装程序检测不到打印机「惠普打印机安装程序」
随着科技的不断发展,电脑和打印机已经成为人们生活中不可或缺的一部分。因此,如何正确安装打印机成为了很多人必须掌握的技能。其中,惠普打印机作为全球知名品牌,深受大众的喜爱...
日期:05-29
美方将审计中概股,互联网巨头将首批接受审计底稿检查_美股 审计
【环球时报报道记者 倪浩】根据中美在8月底就中概股审计达成的协议,中国证监会将安排在美上市的中国公司及其会计师事务所将其审计底稿和其他数据从内地转移到香港,在9月中旬...
日期:09-26
工信部:二季度下架54款不良手机应用,358款App被责令整改_工信部通报下架了90款APP
8月3日,工业和信息化部网站发布关于2022年第二季度电信服务质量的通告。据通告,工信部组织检测57万款App,责令整改358款,公开通报121款。组织各地通信管理局加强监督执法,共查处...
日期:08-04
和苹果iPhone 14一样挤牙膏!谷歌Pixel 7参数揭秘:跟上代差不多
今年9月份,苹果推出新一代iPhone 14系列,标准版的iPhone 14、iPhone 14 Plus因沿用上一代A15芯片、刘海屏和1200万摄像头,整体硬件升级规格不大,被各界批评挤牙膏,相比iPhone 14...
日期:09-28
19岁女孩整形医院抽脂3天后死亡引网友感慨:医生科普 自然美就很好
2021年10月5日,宁夏回族自治区中卫市A整形诊所执业助理医师李某某应银川市B整形医院邀请,在未在当地卫健部门注册执业的情况下,赴B整形医院对被害人梁某某实施抽脂手术”。3天...
日期:04-08
网络黑市“丝绸之路”二号人物被判20年监禁「丝绸之路被抓」
7月12日 消息:Roger Thomas Clark,也被称为 Variety Jones,在建立世界上第一个暗网毒品市场(Silk Road丝绸之路)方面扮演着关键角色,他将在监狱中度过他生命中的大部分时间。从国...
日期:07-12
千万爆款视频获涨粉30万,B站音乐区终迎“狠活儿”UP主?_B站百万粉UP主视频
声明:本文来自于微信公众号 TopKlout克劳锐(ID:TopKlout),作者:白羊,授权转载发布。B站的音乐区已经很久没有“狠活儿”了在2018年B站第一届百大up主名单中,音乐区是入榜up主数量...
日期:02-09
曝苹果将推新款iPad Pro「iPad Pro 2022有望本月发:苹果M2加持」
今日消息,据9to5Mac报道,苹果将在本月发布iPad Pro 2022和iPad 10新品,其中iPad Pro 2022是苹果迄今最强悍的iPad。2018西瓜play嘉年华9to5Mac爆料,iPad Pro 2022有11英寸和12.9...
日期:10-27
aipl模型「研究:AI模型仍不擅长生成干净代码 GPT-4的API误用率达62%」
文章概要:1. AI模型在回答Java编码问题时,仍存在许多API误用问题。GPT-3.5和GPT-4的API误用率分别达到49.83%和62.09%。2. Llama2API误用率最低,但由于它生成的代码较少,误导性...
日期:08-30
“花花”没有妈妈了 大熊猫“成功”死亡 终年23岁:专家病理学分析
9月4日消息,9月3日深夜,成都大熊猫繁育研究基地”公众号一则情况说明,让众多关心大熊猫的网友痛心。据了解,成都大熊猫繁育研究基地在关于大熊猫成功的情况说明”中提到,2023年9...
日期:09-04