您的位置:首页 > 互联网

RAG微调Llama 3竟超越GPT-4!英伟达GaTech华人学者提出RankRAG框架

发布时间:2024-07-09 21:08:56  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】来自佐治亚理工学院和英伟达的两名华人学者带队提出了名为RankRAG的微调框架,简化了原本需要多个模型的复杂的RAG流水线,用微调的方法交给同一个LLM完成,结果同时实现了模型在RAG任务上的性能提升。

在需要大量事实知识的文本生成任务中,RAG成为了常用的LLM部署技巧。

但佐治亚理工学院和英伟达最近发表的一篇论文提出——RAG可以不止停留在用于推理的pipeline中,类似的思路完全可以移植到微调阶段,于是有了这个名为RankRAG的框架。

论文地址:https://arxiv.org/abs/2407.02485

他们的思路可以概括为:用微调拓展模型的能力,把原来RAG需要额外模型的检索、排名任务全丢回给LLM自己。

结果发现,不仅数据效率提高了,模型性能也有显著增强,相比今年5月刚提出的ChatQA-1.5系列有显著优势。

苹果更新ios15.0.1

在9个通用基准和5个生物医学的知识密集型基准上,RankRAG用Llama38B/70B微调出的模型分别超过了同样基座上ChatQA-1.5的两个微调模型,Llama3-ChatQA-1.5-8B和Llama3-ChatQA-1.5-70B。

ChatQA-1.5项目地址:https://chatqa-project.github.io/

检索增强生成技术,简称为RAG(Retrieval-Augmented Generation),被广泛适用于LLM的定制化,尤其是知识密集型的NLP任务。可以帮助模型在不改变权重的情况下掌握长尾知识和最新信息,并适应到特定的领域。

通常情况下,RAG的工作流程大致是:对于给定问题,由一个基于文本编码的稠密模型从外部数据库中检索到top-k个文本段,然后输入给LLM进行读取,以此为基础进行生成。

来源:AWS

这个pipeline看起来非常符合直觉,也已经被广泛使用,但作者在论文开篇指出了其中的固有局限,首先就是k值的选择。

如果k值较大(比如top-100),即使是支持长上下文的窗口的LLM也很难快速读取这么多文本块。随着k值的增大,性能会很快饱和。

除了效率原因,之前还有研究表明,k值在5或10这个量级时,生成结果的准确性更高。因为过多上下文会引入不相关内容,妨碍LLM生成准确答案,

《Retrieval meets Long Context Large Language Models》https://arxiv.org/abs/2310.03025

那把k值就定在这个区间不行吗?

如果给定一个较小的k,我们需要一种机制来保证检索结果的高召回率(recall)。

鉴于检索器的表达能力有限(通常是稀疏检索模型如BM25,或中等大小的编码模型如BERT-based),通常无法捕获所有相关信息,因此实际的应用过程还会加上一个交叉编码(cross-encoding)的排名模型。

排名模型从数据库中检索到top-N个候选 (N ≫ k),再经过一次排名得到最终top-k结果。

这种方案的缺陷在于,与通用的LLM本身相比,专家排名模型的零样本泛化能力相对有限,上游检索结果的质量很可能造成下游LLM生成任务的瓶颈。这在许多实证研究中都得到了验证。

基于上述考虑,作者认为可以只使用LLM同时完成上下文检索和内容生成任务,通过设计RAG的指令调优来实现,这种新颖的框架被命名为RankRAG。

OpenAI的GPT-4报告中就发现,检索、排名过程中发展出的确定文本块与问题是否相关的能力对答案的生成同样有用,这两者可以被视为双重能力。

RankRAG在训练过程中引入了一项带指令的问答任务,让模型能够识别出与问题相关的上下文或段落,便于在推理时对检索结果进行排名。

如果将一部分排名数据集成到指令微调中,还能大大增强LLM在RAG排名任务中的性能,甚至超过了单独用LLM和10×排名数据进行微调的结果。

神舟十四号航天员首次出舱时间

RankRAG微调框架

在推理阶段,RankRAG的pipeline与上述的的检索-排名-生成流程几乎相同,首先检索出带有相关性分数的top-N结果,然后进行重新排名并保留top-k段落,将其与问题连接到一起进行生成。

主要的不同点在于模型训练过程,使用了两个阶段的指令微调(图2)直接增强LLM的相关能力,而不是在模型外部添加额外操作。

爸爸有多高英语怎么说

宁波易网创新科技

第一阶段首先进行监督微调(SFT),128k个样例来自多个数据集的混合,包括对话数据集SODA、Dolly、OpenAssistant,长格式QA数据集ELI5(需要详细答案),LLM合成的指令,以及CoT数据集FLAN。

这个阶段的SFT主要是为了提高LLM的指令跟随能力,虽然与RAG关系不大,但可以为接下来的指令微调过程做好铺垫。

为了提升LLM的检索、排名性能,第二阶段的微调数据集由以下几个部分混合组成(表1):

  • 第一阶段的SFT数据:用于维持指令跟随能力

  • 上下文丰富的QA数据:涵盖了DROP、NarrativeQA、Quoref、ROPES、NewsQA、TAT-QA等数据集,每条数据包含问题、黄金上下文(golden context)和答案

  • 会话QA数据集:如Synthetic Conversation和HumanAnnotatedConvQA,同时包括对话内容以及一份背景文档

  • 检索增强的QA数据:不仅包括SQuAD和WebQuestions中的问题和答案,还用BM25将黄金上下文和检索到的top结果组合起来,确保每条数据都有5个上下文,其中有些上下文可能不包括问题答案,甚至是hard-negative,这是为了重点提高LLM对不相关上下文的鲁棒性

  • 上下文排名数据:使用流行的MS Marco语义相关性数据集,将其中的黄金样本视为相关的查询-段落对 (


返回网站首页

本文评论
软银宣布将减持近四成阿里持仓 套现340亿美元_软银持股阿里巴巴比例
iPhone 6有什么功能京东定时抢购 查看最新行情   编辑/史正丞   当地时间周三傍晚,软银集团发布公告,宣布将通过结算预付远期合约的方式,减持阿里巴巴持...
日期:08-11
问界m5上市「假期爆单!问界新M7单日大定超2400台:华为高阶智驾遥遥领先」
快科技9月30日消息,9月12日,问界全新M7正式发布,共提供5款车型,起售价为24.98万至32.98万元。华为p60会是5g手机吗日前,问界汽车公布了中秋节战报,显示9月29日问界新M7大定量突破2...
日期:09-30
荣耀平板2018「首款搭载MagicOS 7.2!荣耀平板MagicPad 13正式发布」
通信世界网消息(CWW)7月12日,荣耀Magic V2暨全场景新品发布会在北京水立方举行,荣耀Magic V2、荣耀平板MagicPad 13、荣耀手表4、荣耀智慧屏5等多款新品共同亮相。作为首款Magic...
日期:07-13
tiktok 可登录「TikTok宣布支持iOS设备的密钥登录」
7月19日 消息:据macrumors消息,TikTok 宣布将引入对苹果passkeys 的支持,为这个热门的短视频平台的用户提供更简单、更安全的登录方式。苹果在 iOS16的发布时将 passkeys 集成...
日期:07-19
国内市场有所好转!日产发布3月全国销量:共计5.9914万台_日产中国销量排行
快科技4月25日消息,媒体报道称,日产汽车公布了最新的产销数据。在国内市场,日产中国3月份的汽车产量为57522辆,同比减少39.7%,销量为59914辆,同比增长10.0%。据了解,2024年3月,日产...
日期:04-25
马斯克:全自动驾驶系统 FSD Beta 10.1 周六晚上线,系统操作更像人类
  9 月 25 日消息 今日,特斯拉 CEO 马斯克在推特发文称,FSD(Full Self Driving,全自动驾驶系统)的测试更新按钮将在今晚上线,FSD Beta 10.1 还需要 24 个小时的测试,将会在周...
日期:05-27
日本知名面包公司承认产品混入老鼠残骸:体长约6厘米的崽_日本面包大师都有谁
快科技5月22日消息,昨日,总部位于名古屋市的敷岛面包公司在其官网发布公告,对近期该公司面包产品中混入老鼠残骸事件进行道歉和说明。曹德旺100亿办大学美是最好的礼物据了解,本...
日期:05-22
支付宝公布小微商家降费进展:一年降费让利近80亿「支付宝搞活动立减商家亏吗」
  讯;8月16日上午消息,蚂蚁集团旗下支付宝公布数据,过去一年多来支付宝积极响应国家为小微降费的政策号召,已为小微商家累计减免经营成本近80亿元,超过2200万商家及小微经营者...
日期:09-21
iPhone 15系列卖爆:300万台预约量碾压其他任何品牌_苹果15,1
iPhone 15系列已经发布一周,上周五开始预售。根据京东平台数据显示,iPhone 15系列的预约量已经突破了300万台。其中,iPhone 15 Pro的预约量超过127万台,iPhone 15 Pro Max系列预...
日期:09-19
IBM接近以50亿美元收购软件公司Apptio_ibm收购咨询公司
6月25日早间消息,据报道,IBM接近达成以约50亿美元收购软件公司Apptio的交易,借此深耕自动化技术领域。知情人士称,双方正在进行深入磋商,有可能在周末敲定协议。Apptio目前为私募...
日期:06-25
富士康回应成都工厂停产6天:目前对公司运营影响不大(成都富士康又死两个)
中证网讯(记者 张兴旺)有媒体报道,受四川“让电于民”措施影响,富士康成都工厂8月15日至8月20日停止生产6天。对此,富士康方面回应中国证券报记者称,目前对公司运营影响不大。  ...
日期:08-19
美三大运营商遭罚1022万美元,因未明确披露“无限流量”套餐达峰降速
5 月 11 日消息,美三大运营商 Verizon、AT&T 和 T-Mobile 近日因“流量套餐透明度问题”被判应缴纳 1022 万美元(备注:当前约 7378.8 万元人民币)罚款。小米11pro支持120w快充吗...
日期:05-11
等等党要输了 DDR5内存本月起涨价:三星等厂商盼来曙光「ddr5内存什么时候降价」
快科技7月17日消息,内存、SSD硬盘是这一两年来价格让人惊喜的产品,带动了大家购买32GB内存或者2TB大容量存储的热情,但是进入2023年下半年之后,市场走势也在变化,价格被认为已经...
日期:07-17
伊利成为杭州亚运会官方乳制品独家供应商,双增长势头形如穿云箭
2023年06月15日 10:47:33  重磅携手亚运,伊利勇立潮头。  6月13日,在“杭州亚运会倒计时100天”即将到来之际,伊利集团联合杭州亚组委在钱塘江畔举行“热爱 勇立潮头”主题...
日期:06-15
微软 Win11/Win10 新版 Outlook 应用曝光,全新设计与动画(win10如何安装outlook)
  8 月 9 日消息 适用于 Win11 和 Win10 的 Outlook 近日曝光,将于明年取代现有的 Outlook 应用,预计将在未来几周内推出公开预览版。   微软已经确认将在 Windows 上统...
日期:10-10
吉利李书福曾呼吁:国内部分城市陆续解禁摩托车
快科技5月25日消息,很多人钟情于摩托车,这种交通工具售价不贵,使用成本也低,不过在国内很多城市实际上命令禁止摩托车通行,于是大多数情况下,只能在乡镇和农村地区看到它们的身影...
日期:05-25
支付宝能集几套五福  支付宝集五福最全攻略「支付宝的五福可以集几套」
每年,支付宝都会推出集福卡的活动,今年也不例外,用户只要拼凑出五福就可以分享五亿元大奖。那么支付宝五福卡能合成几次呢?还有支付宝集齐五福能领到多少钱呢?下面就一起来看看吧...
日期:01-16
lenovo手机主题下载「联想手机zui主题中心」
作为全球知名的电脑和手机供应商之一,Lenovo拥有庞大的用户群体。为了满足用户的多样化需求,Lenovo手机提供了丰富的主题下载服务,让用户能够自由地打造出符合个性化需求的手机...
日期:05-29
华尔街股票选择器「GPT-4击败华尔街?最新研究:选股回报超40%」
金磊 发自 凹非寺量子位 | 公众号 QbitAI如果把选股这事交给GPT-4来处理,会是怎样一种结果?一项对美国标普100指数(S&P 100)展开的研究给出了答案:GPT-4表现比基准指数高出13%,回...
日期:01-23
助播“变形记”:30岁上位,如今一天带货破亿_变形记赞助商
声明:本文来自于微信公众号 天下网商(ID:txws_txws),作者:杨洁,授权转载发布。淘宝主播发财(原名高祥)把脸凑到手机跟前,无数条“某某进入直播间”的消息滚动。“根本来不及看人名。”...
日期:05-15