您的位置:首页 > 互联网

GPT-4准确率最高飙升64%!斯坦福OpenAI重磅研究:全新Meta-Prompting方法让LLM当老板

发布时间:2024-01-29 17:14:05  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】大模型幻觉问题还有另一种解法?斯坦福联手OpenAI研究人员提出元提示新方法,能够让大模型成为全能指挥家,汇聚不同专家模型精华,让GPT-4的输出更精准。

当你让大模型写一首莎士比亚十四行诗,并以严格的韵律ABAB CDCD EFEF GG执行。

同时,诗中还要包含提供的3个词。

对于这么高难度的创作题,LLM在收到指令后,并不一定能够按要求做出这首诗。

正所谓,人各有所长,LLM也是如此,仅凭单一模型有时是无法完成一项任务的。

那该如何解?

最近,来自斯坦福和OpenAI的两位研究员,设计了一种提升LLM性能的全新方法——元提示(meta-prompting)。

元提示能够把单一的LLM变身为全能的指挥家。

论文地址:https://arxiv.org/abs/2401.12954

通过使用高层元提示指令,让大模型把复杂任务拆成子任务,然后再将这些任务分配给专家模型。

每个模型收到量身订制的指令后,输出结果。最终元模型有效整合这些结果,输出最终的答案。

最重要的是,LLM还会利用自身理解、推理能力,对最终输出结果进行打磨和验证,确保输出结果的准确性。

这种合作方式,能够让LLM成为核心,通过灵活调用专家,在多种任务上实现大幅性能提升。

实验中,研究人员在Game of24(24点游戏)、Checkmate-in-One、Python编程挑战等多种任务上,为GPT-4集成了Python解释器,在元提示策略下,模型性能刷新SOTA。

具体来说,相比标准提示提升了17.1%,相比动态专家提示提高了17.3%,相比多角色提示提高了15.2%。

元提示让LLM充当指挥者

我们已看到,GPT-4、PaLM、LLaMa等新一代大模型已经在NLP处理生成中,展现出强大的泛化能力。

然而,所有的LLM并非强大到无所不能,也会在输出结果中产生幻觉,比如输出不符合事实、误导性的内容。

随着这些模型的运行成本变得更加实惠,人们自然会问,是否可以使用脚手架(Scaffolding)系统并利用多个 大模型查询,以便提升LLM输出的准确性和稳健性?

在这项研究中,斯坦福和OpenAI的研究人员便提出了一种增强大模型性能的新技术——元提示(meta-prompting)。

这个过程,就需要构建一个高级元提示,来指示大模型:

- 将复杂的任务或问题分解为多个小的、可管理的子任务

- 为每个子任务分配一个受过特定领域训练的专家模型

- 监督这些专家模型之间的沟通

- 在整个过程中,运用LLM理解、推理和验证能力

当收到查询时,大模型在元提示下充当指挥者。它会生成一个消息历史,包含来自各种专家模型的响应。

LLM最初负责生成消息历史中的指挥部分,过程就包括选择专家模型,并为它们制定具体指示。

然而,相同的LLM也可以充当这些独立专家,根据指挥者为每个特定查询选择的专业知识和信息生成输出。

这种方法允许单一、统一的LLM保持一致的推理思路,同时还可以利用各种专家角色。

通过动态选择的上下文来提示这些专家,从而为大模型流程引入了新的视角,而指挥模型则保留了整个历史和协调的全景图。

因此,这种方法使单个黑盒LLM,能够有效地充当核心指挥者的角色,又可以作为多样化专家小组生成更准确、可靠和一致的响应。

作者介绍,元提示方法结合并扩展了进来一系列关于各种 提示理念的研究。

其中,就包括高层次规划和决策、动态角色分配、多智能体辩论、自我调试和自我反思等等。

任何任务,皆不惧

而元提示独到之处就在于,与任务无关性。

与需要针对每个任务量身定制的特定指令或示例的传统脚手架方法不同,元提示是在各种任务和输入中采用同一组高级指令。

这种通用性对用户来说非常有利,因为为每个不同任务提供详细示例,或具体指导非常的麻烦。

举个栗子,当收到写一首关于自拍的莎士比亚十四行诗之类的一次性请求时,用户不需要提供高质量新古典主义诗歌的示例。

元提示通过提供广泛、灵活的框架,提高了LLM的实用性,同时又不影响相关性。

此外,为了展示元提示的多功能性和集成功能,研究人员还调用Python解释器的功能,增强了AI系统。

荣耀新款手机曝光

这使得该技术的应用更加动态和全面,进一步扩展了其有效解决各种任务和查询的潜力。

下图中,展示了元提示对话内容的可视化。

具体描述了元模型(中心控制LLM,又名指挥者)如何将其自身的输出,与各种专家模型或代码执行的输入和输出穿插在一起。

这样的配置使得元提示成为几乎通用的工具。

它允许将各种LLM交互和计算整合到一个单一的、一致的描述中。元提示的与众不同之处在于,它让大模型自行决断使用哪些提示以及执行哪些代码片段。

算法过程

元提示方法的本意是,使用模型来协调和执行多个独立的查询,然后综合它们的响应以输出最终响应。

这一机制支持集成方法,利用独立专业模型的优势和多样性,来协作解决和解决多方面的任务或问题。

研究人员认为,虽然单个通用模型可能为通用查询提供有价值且有用的见解,但结合多个特定领域模型(我们也称为专家)的观点和结论有可能输出更全面、更稳健的结果,甚至是准确的解决方案。

我们的元提示策略的核心是其浅层次结构,其中一个模型(称为"元模型")作为权威的主要实体出现。

从概念上讲,框架内的特定领域专家可以采取多种形式,例如为执行特定任务而定制的微调LLM、用于处理特定领域相关查询的专用API,甚至是计算器或Python解释器等计算工具可以执行算术计算或编写和执行代码。

这些专家尽管功能各异,但都在元模型的监督下进行指导和统一。

实验设置中,只能通过元模型调用专家模型,它们之间不能直接相互交流。这一限制,是为了简化专家之间的沟通,并将元模型置于操作的中心。

-转换输入

使用转换函数t_init,将原始查询放置在合适的模板(template)中,然后向元模型发出初始指令。

- 循环迭代

(a)提示元模型:当前消息列表,即H_t,指导元模型的下一步行动——直接处理查询,或咨询特定领域的专家。

(b)调用特定领域的专家模型:如果元模型没有返回结果,它可以调用任何专家并给它指令,这些指令是使用e_exp从其输出中提取的。不过,这个过程是孤立的:每个专家模型只能看到元模型选择与它们共享的内容,并做出相应的响应。

比如,如果问题涉及数学和历史,元模型可能会咨询数学专家进行计算,并咨询历史专家了解历史背景。专家的输出结果会被提取出来,并附加额外的说明,所有这些都使用t_mid模板。

(c)返回最终响应:如果元模型的响应包含最终答案(通过不同的特殊标记突出显示),则使用e_ret提取解决方案并返回。

(d)错误处理:如果模型响应y_t既不包含最终答案,也不包含对专家模型的调用,则在信息列表中附加错误信息H_t。这确保了程序是稳健的,并可以处理意外的输出。

在接下来的实验中,研究人员将元提示与四种基线方法进行了比较,包括标准提示(Standard prompting)、零样本CoT提示、专家提示、多角色提示。

此外,为了评估元提示方法相对于其他零样本提示基线的有效性,研究人员还采用了一系列需要不同程度的数学和算法推理、特定领域知识和文学创作能力的任务和数据集。

其中包括:

-24点游戏:使用四个给定数字中的每一个,恰好一次组成一个值为24的算术表达式

- Three BIG-Bench Hard:即几何形状、多步算术、单词排序

- Python编程难题:一系列用Python编写的具有挑战性的编程难题,具有不同的难度级别

- 多语种小学数学:是GSM8K数据集的多语种版本,将一个子集的示例翻译成十种不同类型的语言

- 莎士比亚十四行诗写作:目标是以严格的韵律ABAB CDCD EFEF GG写一首十四行诗,需要包含提供的三个词。

主要成果

从表1所示的结果中可以看到,元提示(meta-prompting)技术相较于传统的零样本(zero-shot)提示技术具有明显的优势——

元提示技术的表现分别比标准提示提高了17.1%,比专家(动态)提示(expert (dynamic) prompting)提高了17.3%,以及比多人格提示(multipersona prompting)提高了15.2%。

而在Python解释器的辅助下,元提示(meta-prompting)技术在多种任务上显著超越了传统的零样本(zero-shot)提示技术。这一方法在解决那些高度依赖启发式或反复试错策略的任务上表现出色。

例如,在24点游戏挑战中,与传统提示方法相比,元提示技术使准确度大幅提升了超过60%,在Python编程难题上取得了约15%的提升,并在十四行诗创作上实现了近18%的提升。

零样本分解、错误检测与聚合

元提示框架之所以成功,一大原因是它巧妙地利用了专业知识、内部合作以及在过程中不断自我检验的机制。

这种方法,连同采用多角色互动的方式,促进了多轮对话,让不同的角色共同参与到解决问题的过程中。

以解决MGSM数据集中的多语言算术问题为例,GPT-4在采用元提示方法时,通常会经历三个阶段:

首先将问题从源语言(比如,孟加拉语)翻译成英语,接着应用计算专长(例如,请求数学专家的帮助)来寻找解决方案,最后进行独立或验证确认。

其中,元提示能够在不被明确指令的情况下完成这样的翻译。

新视角

这个概念可以帮助解决一个广为人知的问题:大语言模型倾向于重复自己的错误,并且还非常自信。

相比于多角色提示,元提示会在过程中让专家或不同角色重新审视问题,从而为发现新的见解和先前未被注意到的错误提供了可能。

想象一下,如果任务是解决24点游戏,即用6、11、12和13这四个数字,每个各用一次,组成一个算术表达式,使其结果为24:

1. 元模型(Meta Model)建议咨询数学、问题解决和Python编程的专家。强调需要准确无误地遵循规则,并在必要时让其他专家进行复审。

2. 在一位专家给出方案后,另一位专家指出了其中的错误。于是,元模型建议编写一个Python程序来搜索可行的方案。

3. 接着,元模型邀请了一位编程专家负责编写这个程序。

4. 另一位编程专家随后发现了程序中的错误,对其进行了修改,并执行了更新后的程序。

5.为了确保输出的结果无误,元模型又请了一位数学专家来进行验证。

6. 经过核验,元模型最终给出了答案。

可以看到,通过在每一步骤中加入新的视角,元提示不仅能找到问题的解决方案,还能有效地发现并更正错误。

实时代码执行

通过在高级编程策略中引入Python编程专家,并使其根据人类的自然语言指令来编写并执行代码,研究人员成功地把解决问题的比例从32.7%提高到了45.8%。

这种实时执行代码的能力,让研究人员能够即时地验证和优化解决方案,极大地提升了解决问题的效率和准确性。

而且,这种提升的效果并不局限于某一种特定的任务。

在24点游戏和单词排序这样的任务中,将Python解释器集成到元提示中后,准确率分别提高了56.0%和15.6%。(与基线相比则分别提高了64.0%和19.2%)。

总的来说,Python解释器可以让各类任务的平均性能提升额外的11.5%。

作者介绍

Mirac Suzgun

Mirac Suzgun是斯坦福大学计算机科学专业的博士生,同时他也在斯坦福法学院攻读法学博士学位。

他专注于研究大语言模型(LLM)的局限与潜能,寻找更有效、更易于理解的文本生成方法。

他本科毕业于哈佛学院,取得了数学与计算机科学的双学位,并辅修了民间传说与神话学。

Adam Tauman Kalai

Adam Tauman Kalai是OpenAI的一名研究员,专注于Lilian Weng领导下的AI安全与伦理问题。

在此之前,他在微软研究院新英格兰分部工作,自该研究院2008年成立以来,共参与了包括代码生成(教计算机编程)、公平性原则、算法设计、翻译鲸鱼语言、博弈论、计算机幽默、众包技术等多个有趣项目的研究。

在加入微软研究院之前,他曾在乔治亚理工学院和丰田工业大学芝加哥分校担任计算机科学助理教授。

参考资料:

https://arxiv.org/abs/2401.12954


返回网站首页

本文评论
联想工作站和戴尔工作站的性价比「联想 工作站」
联想工作站是专为专业人士设计开发的桌面电脑,其运行速度更快,计算数据更稳定,适用于多种传统行业,如金融、医疗、科学研究等。联想工作站的一个重要优势是其可定制性,可根据用户...
日期:05-30
北京智博领航教育科技有限公司,自考路上的垫脚石_北京智博领航教育公司怎么样
苹果公司也曾岌岌可危过,乔布斯回来之后的第一件事不认命,做自己命运的主宰,这也是无数奋斗者的青春写照,也是我们每个人应该有的骨气,谁都的一生不是与命运抗衡的一生呢?对于个...
日期:08-23
郭明錤:中国地区iPhone 14 pro系列占订单分配约为85%
  财联社9月9日电,苹果分析师郭明錤9日发表最新iPhone14线下预购调查,调查显示,中国地区iPhone14 Pro系列占订单分配约为85%,iPhone14 Plus订单分配约为5%;苹果高端产品的预购...
日期:09-10
零距离感受专业性能与多元交互的智慧体验 「入手全新华为MateBook」,E 二合一笔记本
常言道,能者可多劳,5月18日在华为夏季全场景新品发布会上,华为MateBook E 二合一笔记本正式发布。这款在华为旗下拥有二合一设计元素的明星旗舰,能够随时轻松切换多种形态供花粉...
日期:09-17
人工智能促进产业升级「工信部:推动人工智能产业标准体系加快形成」
通信世界网消息(CWW)近日,工信部对外发布《国家人工智能产业综合标准化体系建设指南》(征求意见稿),提出推动人工智能产业高质量发展的标准体系加快形成。近年来,中国人工智能产...
日期:01-25
百万网红“狗头萝莉”退圈卖7元煎饼被频繁举报:不相信容不下美女创业
百万粉丝网红狗头萝莉”于数月前退圈,做起煎饼果子的摆摊生意。5月,她曾晒出摊位招牌煎饼狗子”和食品价格表包含鸡蛋、煎饼、生菜的煎饼果子7元一份。在近日的短视频中,狗头萝...
日期:07-17
NVIDIA将为被取消的RTX 4080 12GB型号盒子的费用买单
上周五,NVIDIA在发布RTX 4000系列显卡的同时同时推出了其旗舰GPU的RTX 4080 12GB版本,然后又取消了,该版本本应在下个月11月16日开始购买。NVIDIA坚持认为RTX 4080 12GB是一款...
日期:10-17
Facebook、Google等互联网巨头操控太多的个人隐私信息,(facebook与google公司)
  但反对政府干预【搜狐IT消息】北京时间5月18日消息,据国外媒体报道,最近美国的一项民调显示,三分之二的美国人认为,Facebook、Google等互联网巨头操控了太多的个人隐私信息...
日期:07-28
抖音:打击发布考上清华/北大等蹭高考热点同质化文案内容「抖音清华北大的男的」
6月27日 消息:抖音发布打击同质化不良信息公告称,近日,平台在日常巡查中发现,有极少数用户发布“考上清华/北大”等蹭高考热点同质化文案内容,平台进行了严格治理。其中,有“清**...
日期:06-27
丰田bz 4x「丰田bZ4X降价也卖不好!丰田亲自承认:我们开发电动车失败了」
不同于燃油车,丰田电动车在中国市场几乎没有什么存在感,甚至丰田官方也承认,其电动化在中国市场的失败。4月16日消息,快科技了解到,近日,丰田汽车新任社长佐藤恒治在媒体交流会上...
日期:04-16
邬贺铨院士:6G比5G快1000倍,有这个必要吗?_邬贺铨 5g
苏宁易购创新点   文;| 张俊   本期嘉宾:   中国工程院院士;邬贺铨   这是一个新技术交汇的时代,AI、5G等前沿技术正在加速改变我们的生活。   在由微博、新浪新闻...
日期:08-19
谷歌 DeepMind 首席执行官:未来几年人工智能可能拥有「人类水平」的智能
5月4日消息:谷歌 DeepMind 首席执行官 Demis Hassabis 表示,通用人工智能 (AGI) 有望在几年内变成现实。人工智能能够与人类的智力相匹敌可能并不遥远。Hassabis 当地时间周...
日期:05-04
中国移动上研院的“唐山海泰5G+工业视觉质检项目”
通信世界网消息(CWW)中国移动上研院以AI智旭-5G+光伏智能检测系统为核心,针对光伏制造工厂推出了端对端的“无人化”解决方案,该方案在唐山海泰新能科技股份有限公司得到成功应...
日期:09-28
光云科技旗下品牌“有成”受邀参与钉钉618直播,探索企业服务新方向
  一年一度的电商年中庆,狂欢618正在进行中。作为阿里巴巴集团旗下品牌,钉钉618也如火如荼的进行中。今年618宝藏钉钉首次试水直播带货,邀请了平台上紧密合作的ISV供应商入...
日期:07-14
每股1112元回购员工期权......字节跳动变更集团LOGO,此前已更名为抖音集团
  编辑/张锦河;;  《每日经济新闻》记者获悉,字节跳动官方账号于抖音、微信公众号等平台更新了新集团LOGO,新LOGO摘除了“字节跳动”的汉字元素,配色与飞书LOGO相似。国美...
日期:10-13
中兴通讯技术支持网站「中兴通讯亮相2023北京PT展 以终端成果助力全场景智慧生态2.0」
6 月 4 日,由工业和信息化部主办的 2023 年中国国际信息通信展览(简称“PT展”)在北京国家会议中心正式拉开帷幕。本次展会聚焦5G技术发展,系统地展示了近年来我国在5G产业生态...
日期:06-06
代运营都做些什么「最懂卖货的代运营,为什么做品牌依然这么难?」
声明:本文来自于微信公众号 刀法研究所(ID:DigipontClub),作者:关聪,授权转载发布。在电商的舞台上,品牌和平台永远被灯光围绕,成为最容易被消费者注意到的角色。鲜有人把目光放在...
日期:12-22
诺基亚为du建成400G国家光纤骨干网
通信世界网消息(CWW)近日,据外媒报道,诺基亚宣布为阿联酋综合电信公司du建设了400G国家骨干光网络。该网络覆盖整个国家,从西部边境到东部。在诺基亚相干光学技术的支持下,新的光...
日期:10-17
泰坦号潜艇失事前水下短信通信记录曝光:报警前8小时就已出现问题
快科技7月1日消息,前不久美国一艘名为泰坦号”的小型观光潜艇下海,原计划是下潜到泰坦尼克号乘船的位置参观,结果却在3000多米的位置失联。目前部分残骸已经被打捞上来,从残骸来...
日期:07-01
4年不卡的骁龙8 旗舰来了!一加Ace 2原神限定版明天发:抢到赚到_一加8玩原神怎么样
快科技4月16日消息,一加科技李杰预告,一加Ace 2原神限定礼盒将于4月17日正式发布。此前一加与原神联合打造了一加Ace Pro原神限定版,该版本上线后迅速被抢光。不出意外,这款Ace...
日期:04-17