您的位置:首页 > 互联网

比OpenAI官方提示词指南更全,这26条黄金准则让LLM性能飙升50%以上

发布时间:2024-02-05 23:37:19  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

今天,穆罕默德・本・扎耶德人工智能大学 VILA Lab 带来了一项关于如何更好地为不同规模的大模型书写提示词(prompt)的研究,让大模型性能在不需要任何额外训练的前提下轻松提升50% 以上。该工作在 X (Twitter)、Reddit 和 LinkedIn 等平台上都引起了广泛的讨论和关注。

  • 论文地址: https://arxiv.org/abs/2312.16171

  • Github地址: https://github.com/VILA-Lab/ATLAS

  • 论文标题:Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4

在以 ChatGPT 为首的大模型出来之后,为大语言模型设计提示词的研究已经成为一个重要的研究方向,包括 OpenAI 官方也出品了针对 ChatGPT 用户的提示工程指南 [1] ,其包含了六条书写准则:1)写出清晰的指令;2)提供参考文本;3)将复杂的任务拆分为更简单的子任务;4)给模型时间思考;5)使用外部工具;6)系统地测试更改。

由此可见,提示词对于如何更好地使用大模型以及得到满意的回答都具有重要的意义。然而可以看到的是,OpenAI 提供的这些准则都是比较宽泛和保守的,并没有涉及到一些具体的操作和技巧。

今天要介绍的这篇文章提供了更多也更加接地气的提示工程指南,足足有26条之多,内容涵盖了:1)回答内容和语言风格的控制;2)提示词结构和清晰度;3)复杂任务和代码提示;4)回答特异性和信息量;5)用户交互和参与等多个方面。

下面让我们来逐条讨论一下这些提示词准则:

1) 如果您更喜欢更简洁的答案,则无需对 LLM 保持礼貌,因此无需添加诸如 请、如果你不介意、谢谢、我愿意等,直奔主题即可。

2) 在提示中融入目标受众,例如该领域的专家。具体而言,当你告诉大模型你的目标受众是一个孩子,它的回答会更加通俗易懂,当你告诉它受众是这个领域的专家,它会提供更加专业和深入的解释。

3) 在交互式对话中将复杂的任务分解为一系列更简单的提示。

4) 使用肯定的指令,如做,同时避免使用不要等否定性语言。

5) 当您需要简单清晰或更深入地了解某个主题、想法或任何信息时,请利用以下提示:

  • 用简单的术语解释 [插入特定主题]。

  • 像我是11岁一样向我解释这个问题。

  • 向我解释,就好像我是 [领域] 的初学者一样。

  • 用简单的英语写 [文章 / 文本 / 段落],就像你在向一个5岁的孩子解释一些事情一样。

6) 添加我要给 $xxx 小费以获得更好的解决方案!这种提示词会带来提升的原因可能是:在训练数据中,当涉及到回答是有奖励的,回答的人往往会更加准确细致,小心谨慎地提供答案,大模型从这些网络数据中学到了这些结构和方式。

7) 实现示例驱动的提示(使用少样本提示)。

亚马逊竞争激烈

moto新手机发布2020

8) 格式化提示时,以###Instruction###开头,然后是###Example### 或###Question###(如果相关)。随后展示您的内容。使用一个或多个换行符用于分隔指令、示例、问题、上下文和输入数据。

9) 在你的提示词里面加入以下短语:你的任务是和你必须。

10) 在你的提示词里面加入以下短语:你会受到惩罚。

11) 在提示中使用以自然、类似人类的方式回答问题这句话。

12) 使用引导性词语,例如写一步一步地思考。

13) 在提示中加上以下短语:确保你的回答是公正的,避免依赖刻板印象。

14) 让模型通过向你提问来引出你精确的细节和要求,直到他得到足够的信息来提供所需的输出(例如,从现在开始,我希望你问我......提问)。

15) 要询问特定主题或想法或任何信息,并且您想测试您的理解,您可以使用 以下短语:教我任何 [定理 / 主题 / 规则名称],并在末尾包含一个测试,并让我知道是否在我回答后,我的答案是正确的,不要事先提供答案。

16) 为大型语言模型分配角色。

17) 使用分隔符。

18) 在提示中多次重复特定单词或短语。

19) 将思维链 (CoT) 与 few-Shot 提示相结合。

20) 使用输出引导,包括用所需输出的开头结束提示。利用输出引导,以预期响应的开头结束提示。

21) 如果任务是写一篇文章 / 文本 / 段落或任何类型的文本,同时需要尽可能的详细,可以添加提示词:写一篇详细的 [论文 / 文本 / 段落],通过添加所有必要的信息从而使我能详细了解 [主题]。

22) 在不改变其样式的情况下更正 / 更改特定文本:尝试修改用户发送的每个段落。你应该只提高用户的语法和词汇量,并确保它听起来很自然。您应该保留原始写作风格,确保正式段落保持正式。

23) 当您有一个复杂的编程提示时,该提示可能位于不同的文件中:从现在开始,每当您生成跨越多个文件的代码,生成一个可以自动运行的 [编程语言 ] 脚本,创建指定的文件或对现有文件进行更改以插入生成的代码。[你的问题]。

24) 当您想使用特定单词、短语或句子开始或继续文本时,请使用以下方法提示:

  • 我为你提供开头 [歌词 / 故事 / 段落 / 散文...]:[插入歌词 / 单词 / 句子]。根据提供的单词完成它。保持内容风格一致。

25) 明确说明模型必须遵循的要求去生成内容, 以关键字、规定、提示或说明的形式。

26) 如果要编写任何文本,例如文章或段落,并且需要与提供的示例相似,请包括下面提示语句:

  • 根据提供的段落使用相同的语言 [/title/text/essay/answer]。

以下是一些具体的提示词例子和对应的 GPT-4输出结果:

1. 当我们询问 GPT-4问题的时候,最后可以加上一句提供公正的解释,突出科学证据和不同观点。可以看到加上该提示词之后 GPT-4的回答明显会更加丰富和有深度。

2. 我们可以提供一些示例让模型更好的理解我们的目标和出发点。

3. 我们可以告诉模型用简单的方法来回答问题,就像是在向一个5岁的孩子解释一些事情。可以看到加上和不加这个提示词,模型的回复在理解困难程度上有明显的差别。

4. 我们可以通过给模型小费的方式,让模型更加严谨完善的回答问题。

定量实验结果:

电视盒子哪个好2020

1. 模型回答质量提升比例:该指标表示在使用提示词原则后,问题的回答质量提高的百分比。

可以看到所有提示词原则在人工评测中都取得了或多或少的提升,其中原则14获得了100% 的提升,意味着所有问题通过使用该提示原则都获得了提升。与此同时,原则1得到的提升相对较少。

2. 回复正确性提升:正确性指模型输出或回答的精度,判断标准是回答是否准确、相关且没有错误的。本文同时考虑了不同模型的绝对正确性和相对正确性提升两个指标。

上图结果为加入提示原则后,大模型回复质量的相对正确性提升。small表示7B 模型,medium表示13B 模型,large scale表示70B 和 GPT-3.5/4模型。可以看到大模型在使用提示词原则后,提升幅度相对于小模型和中等模型会更加显著。

3. 单独每个模型准确度提升比例:

上图是每个不同大小的模型相对提升幅度,可以看到类似的现象,模型越大,对于提示词的响应和回复也越加敏锐,准确性提升也相对越大。

4. 下图是不同大小模型对于每条提示词原则准确度提升大小具体结果:

三星note 9新配色

提示词准则数据集:

本文在介绍26条提示词准则的同时,还附带发布了一个基于准则提示词的基准,其中每条准则作者准备了20个不同的问题,每个问题同时包含带有准则和不带准则两种对应的大模型回复。

该数据集可以用在:1)大语言模型对于提示词响应的性能评测;2)偏好驱动的大模型微调。

数据集链接:https://github.com/VILA-Lab/ATLAS。

更多提示词原则使用方法和说明,欢迎阅读原文。

参考文献

[1] Six strategies for getting better results. OpenAI. https://platform.openai.com/docs/guides/prompt-engineering/six-strategies-for-getting-better-results


返回网站首页

本文评论
PICO 4国行开售在即 VR健身为主打场景_pico vr怎么样
  《科创板日报》26日讯,引人关注的字节跳动旗下PICO 4国内新品发布会将于9月27日19:30召开,届时将公布国内售价及开售渠道等信息。据内部人士向《科创板日报》记者透露称,本...
日期:10-03
技嘉发布GC-WIFI7扩展卡:支持Wi-Fi 7、蓝牙5.3_技嘉h77nwifi无线模块
快科技12月12日消息,技嘉推出了一款名为GC-WIFI7的扩展网卡,为早期支持Wi-Fi 7技术的主板提供解决方案。据悉,这款扩展网卡适用于多链路操作(MLA)模式,允许用户同时连接到多个频段...
日期:12-13
英特尔IDM 2.0战略再进一步,携手新思科技开发基于Intel 3、Intel 18A的领先IP
(原标题:英特尔IDM 2.0战略再进一步,携手新思科技开发基于Intel 3、Intel 18A的领先IP) 双方的协议将使设计人员能够利用Intel...
日期:08-28
日本发现新病毒 蜱虫「日本确认全球首例因感染Oz病毒死亡病例:蜱虫传播 2018年首次发现」
日本厚生劳动省日前发布消息,确认一名70多岁的女性成为全球首例因感染Oz病毒死亡病例。这名患者居住在茨城县,2022年夏天死亡,之前出现倦怠感、食欲下降、呕吐、关节痛等症状,而...
日期:06-24
腾讯与工信部电子五所达成战略合作 共同推动无人系统领域科研与产业深度融合
9 月 8 日,在 2023 腾讯全球数字生态大会智慧交通专场上,腾讯与工业和信息化部电子第五研究所正式达成战略合作。根据协议,本次合作以腾讯实时孪生、交通OS、高精地图、交通分...
日期:09-10
AI安全辩论:Sam Altman剑桥演讲遭抵制、Llama 2被曝存在潜在风险
要点:1. Sam Altman在剑桥活动中遭到抵制,引发全球AI安全讨论升级,包括联名信呼吁对人工智能制定国际条约。2. MIT的研究指出,开源的Llama2存在潜在风险,可能被滥用以获取危险知...
日期:11-02
三星Galaxy Z Flip5折叠屏曝光:外屏更大、后置横排摄像头_三星zflip5g折叠屏手机参数
近期,传出三星 Galaxy Z Flip5 折叠屏手机的最新消息。据悉,该手机的外屏尺寸较上一代产品有所增大,并且形状犹如“文件夹”,因此整体辨识度较高。此外,手机的后置摄像头采用了横...
日期:06-30
国家邮政局:国庆假期全国共揽投快递包裹超41亿件_国家邮政局:双11当天6.75亿件快件
10月8日 消息:国家邮政局公布数据称,10月1日至7日,全国邮政快递业运行安全平稳,共揽收快递包裹21.35亿件,与2021年同比增长7.23%;投递快递包裹19.67亿件,与2021年同比增长2.61%。...
日期:10-09
上海组装电脑直播「上海组装电脑」
上海作为中国最先进的城市之一,拥有着全球先进的制造技术和生产设备。在这里,组装电脑已成为一种非常普遍的选择,对于喜欢DIY的电脑爱好者来说,他们可以在这里轻松地找到高质量...
日期:05-29
荣耀官宣X40 GT即将发布:号称“战神” 强悍性能「荣耀x40怎么样」
10月8日消息, 在国庆节后上班的第一天,荣耀官宣了新机荣耀X40 GT即将登场。荣耀官方宣称这款手机有强悍的性能,是性能跃级标杆,号称战神。至于这款手机的正式发布时间,荣耀还未公...
日期:10-17
二手笔记本电脑专卖网「北京二手笔记本电脑」
随着信息技术的发展,笔记本电脑已经成为了许多人生活和工作中不可或缺的工具。然而,相比于新机,二手笔记本电脑不仅价格更加亲民,而且性能也不会逊色于新机,成为了许多消费者的首...
日期:05-28
中国限制镓、锗等半导体关键材料出口 市场变了:正疯狂囤积砷化镓晶圆
前不久商务部宣布镓、锗相关物项实施出口管制,未经许可不得出口。这两种都是半导体行业中的关键材料之一,而且中国都是全球储量及产量最大的,对半导体影响有重要影响。在中国宣...
日期:07-13
苹果iPhone 16 Pro系列早期数据曝光:将配备更大的6.3和6.9英寸显示屏「pro16配置」
据显示器行业分析师Ross Young透露,苹果公司计划于2024年推出的iPhone 16 Pro和iPhone 16 Pro Max手机屏幕尺寸将再次升级,约为6.3英寸和6.9英寸。虽然离iPhone 15系列发布还...
日期:05-09
B站在港交所主板主要上市生效 收盘微涨0.67%_B站在港上市首日开盘跌超2%
10月3日消息,哔哩哔哩(简称B站)在港交所发布公告,称公司自愿将其在香港联交所的第二上市地位转换为主板主要上市的事项于今日生效。截至收盘,B站股价涨0.67%,报120.4港元,市值474亿...
日期:10-08
iphone pro max 拍照「iPhone 15 Pro Max相机实力恐怖:影像旗舰稳了」
据悉,苹果iPhone 15 Pro Max将搭载三摄像头,包括4800万主摄、1200万超广角和1200万潜望式长焦。此外,该手机还将配备LiDAR系统,实现更加准确的深度信息捕获,呈现更加逼真和沉浸的...
日期:06-15
九号公司主办王者争霸赛总决赛,实现电竞与科技出行品牌双向赋能
作为第七届王 者荣耀全国大赛合作外卡赛事之一,Ninebot九号王 者争霸赛总决赛在南京开启,从 4 月 8 日开始,海选活动同时在全国 32 个城市展开,经过激烈的晋级赛,最终确定了 32...
日期:06-29
一颗小行星高速靠近地球 科学家:“天外来客”其实有点远_一颗小行星正靠近地球
一颗小行星高速靠近地球 科学家:“天外来客”其实有点远 2023 CL3小行星(资料图片)5月24日,一颗直径200米的小行星“靠近”地球。日前,NASA(美国国家航空航天局)发出警告称,一颗宽...
日期:05-26
打造小红书KOC爆文玩儿法——以欧花集为例「小红书koc推广价格」
声明:本文来自于微信公众号 楠开口(ID:nnvoice),作者:Sally楠,授权转载发布。近日,我们通过小红书了解到欧花集这个品牌。该品牌在近30天内处于小红书热门品牌洗护香氛榜上排行榜...
日期:01-04
韩国网吧近两年关闭7000多家:业主苦不堪言(韩国的网吧限不限年龄)
  据悉,最近韩国网吧行业开始动荡。内忧外患使得网吧业主们苦不堪言。韩国网络电脑文化协会政策局长赵英哲表示,韩国国内近两年关闭的网吧达到7000多家,其中最大的原因就是...
日期:07-23
机械硬盘越混越惨了:三大品牌出货量雪上加霜_机械硬盘销量
机械硬盘本就遭遇着被SSD取代的艰难时刻,没想到又遇到PC电脑空前的低迷危机,境况可想而知了。来自StorageNewsletter和Trendfocus联合发布的数据显示,今年第二季度,全球机械硬盘...
日期:08-19