您的位置:首页 > 互联网

提示词用上“过去式“,秒破GPT4o等六大模型安全限制!中文语境也好使

发布时间:2024-07-20 10:08:01  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者: 克雷西,授权转载发布。

只要在提示词中把时间设定成过去,就能轻松突破大模型的安全防线。

而且对GPT-4o尤其有效,原本只有1%的攻击成功率直接飙到88%,几乎是“有求必应”。

有网友看了后直言,这简直是有史以来最简单的大模型越狱方式。

来自洛桑联邦理工学院的一篇最新论文,揭开了这个大模型安全措施的新漏洞。

而且攻击方式简单到离谱,不用像“奶奶漏洞”那样专门构建特殊情境,更不必说专业对抗性攻击里那些意义不明的特殊符号了。

只要把请求中的时间改成过去,就能让GPT-4o把燃烧弹和毒品的配方和盘托出。

而且量子位实测发现,把提示词改成中文,对GPT-4o也一样有效。

有网友表示,实在是想不到突破大模型漏洞的方式竟然如此简单……

当然这样的结果也说明,现有的大模型安全措施还是太脆弱了。

GPT-4o最易“破防”

实验过程中,作者从JBB-Behaviors大模型越狱数据集中选择了100个有害行为,涉及了OpenAI策略中的10个危害类别。

然后作者用GPT-3.5Turbo,把把这些有害请求对应的时间改写成过去。

接着就是用这些修改后的请求去测试大模型,然后分别用GPT-4、Llama-3和基于规则的启发式判断器这三种不同方式来判断越狱是否成功。

被测试的模型则包括Llama-3、GPT-3.5Turbo、谷歌的Gemma-2、微软的Phi-3、GPT-4o和R2D2(一种对抗性训练方法)这六种。

结果显示,GPT-4o的越狱成功率提升最为明显,在使用GPT-4和Llama-3进行判断时,原始成功率均只有1%,使用这种攻击的成功率则上升到了88%和65%,启发式判断器给出的成功率也从13%升到了73%。

其他模型的攻击成功率也提高不少,尤其是在使用GPT-4判断时,除了Llama-3,其余模型的成功率增长值都超过了70个百分点,其他的判断方法给出的数值相对较小,不过都呈现出了增长趋势。

对于Llama-3的攻击效果则相对稍弱一些,但成功率也是增加了。

另外随着攻击次数的增加,成功率也是越来越高,特别是GPT-4o,在第一次攻击时就有超过一半的成功率。

不过当攻击次数达到10次后,对各模型的攻击成功率增长都开始放缓,然后逐渐趋于平稳。

宏碁电脑win11

值得一提的是,Llama-3在经历了20次攻击之后,成功率依然不到30%,相比其他模型体现出了很强的鲁棒性。

同时从图中也不能看出,不同判断方法给出的具体成功率值虽有一定差距,但整体趋势比较一致。

另外,针对10类不同的危害行为,作者也发现了其间存在攻击成功率的差别。

不看Llama-3这个“清流”的话,恶意软件/黑客、经济危害等类型的攻击成功率相对较高,错误信息、色情内容等则较难进行攻击。

当请求包含一些与特定事件或实体直接相关的关键词时,攻击成功率会更低;而请求偏向于通识内容时更容易成功。

基于这些发现,作者又产生了一个新的疑问——既然改成过去有用,那么改写成将来是不是也有用呢?

进一步实验表明,确实也有一定用处,不过相比于过去来说,将来时间的效果就没有那么明显了。

以GPT-4o为例,换成过去后接近90个百分点的增长,再换成将来就只有60了。

对于这样的结果,网友们除了有些惊讶之外,还有人指出为什么不测试Claude。

作者回应称,不是不想测,而是免费API用完了,下一个版本会加上。

不过有网友自己动手试了试,发现这种攻击并没有奏效,即使后面追问说是出于学术目的,模型依然是拒绝回答。

△来源:Twitter/Muratcan Koylan

这篇论文的作者也承认,Claude相比于其他模型会更难攻击,但他认为用复杂些的提示词也能实现。

因为Claude在拒绝回答时非常喜欢用“I apologize”开头,所以作者要求模型不要用“I”来开头。

不过量子位测试发现,这个方法也未能奏效,无论是Claude3Opus还是3.5Sonnet,都依然拒绝回答这个问题。

△左:3Opus,右:3.5Sonnet

还有人表示,自己对Claude3Haiku进行了一下测试(样本量未说明),结果成功率为0。

总的来说,作者表示,虽然这样的越狱方式比不上对抗性提示等复杂方法,但明显更简单有效,可作为探测语言模型泛化能力的工具。

使用拒绝数据微调或可防御

作者表示,这些发现揭示了SFT、RLHF和对抗训练等当前广泛使用的语言模型对齐技术,仍然存在一定的局限性。

按照论文的观点,这可能意味着模型从训练数据中学到的拒绝能力,过于依赖于特定的语法和词汇模式,而没有真正理解请求的内在语义和意图。

这些发现对于当前的语言模型对齐技术提出了新的挑战和思考方向——仅仅依靠在训练数据中加入更多的拒绝例子,可能无法从根本上解决模型的安全问题。

作者又进行了进一步实验,使用拒绝过去时间攻击的示例对GPT-3.5进行了微调。

结果发现,只要拒绝示例在微调数据中的占比达到5%,攻击的成功率增长就变成了0。

下表中,A%/B%表示微调数据集中有A%的拒绝示例和B%的正常对话,正常对话数据来自OpenHermes-2.5。

这样的结果也说明,如果能够对潜在的攻击进行准确预判,并使用拒绝示例让模型对齐,就能有效对攻击做出防御,也就意味着在评估语言模型的安全性和对齐质量时,需要设计更全面、更细致的方案。

论文地址:

百元性价比神机

https://arxiv.org/abs/2407.11969

参考链接:

[1]https://x.com/maksym_andr/status/1813608842699079750

[2]https://x.com/MatthewBerman/status/1813719273338290328


返回网站首页

本文评论
我国41%手机用户同时使用两部或更多手机
昨天,易观国际发布的《2011中国手机用户研究报告》显示,我国有41%的手机用户同时使用两部或更多的手机。与3年前相比,使用多部手机的用户份额提升了10%以上。 易观国际认为,造...
日期:07-28
音乐ChatGPT时刻来临!天工SkyMusic音乐大模型今日启动邀测_天工音箱
4月2日,昆仑万维AI音乐生成大模型天工SkyMusic即日起面向社会开启免费邀测。本轮邀测将开放1000个免费名额,面向行业媒体、专家、以及感兴趣的音乐从业者开放,用户可扫描文后二...
日期:04-02
Anthropic 为其人工智能聊天机器人推出付费订阅计划 Claude Pro:与 ChatGPT Plus 展开竞争
9月8日消息:谷歌支持的由前 OpenAI 员工共同创立的 Anthropic 人工智能初创公司,今天宣布推出首个面向消费者的高级订阅计划 Claude Pro,为 Claude 2 – Anthropic 的 AI 驱动...
日期:09-08
tcl 2020「TCL即将亮相AWE 2024,以超大屏、超高清演绎绿色智慧生活」
中国家电及消费电子博览会(以下简称AWE2024)将于3月14日至17日在上海新国际博览中心举办。TCL将通过TCL实业和TCL科技两大主体,聚焦智能终端、半导体显示、新能源光伏三大核心...
日期:03-12
俄罗斯代表在联合国发出警告, “暗示”可能攻击“星链”卫星「北约仍将俄罗斯视为头号威胁」
【环球时报综合报道】 美国私营航天企业太空探索技术公司(SpaceX公司)在俄乌冲突中向乌克兰提供的“星链”卫星通信服务让俄罗斯极为恼火。美国“极限技术”网站19日称,俄罗斯...
日期:09-23
诺辉健康发布宫证清基线临床数据,尿液宫颈癌HPV筛查产品有望27年上市_网易科技
9月3日消息,昨日,诺辉健康正式公布旗下宫颈癌HPV居家自取样筛查产品宫证清注册临床试验基线数据。据介绍,宫证清采用诺辉健康自主研发的高危HPV分型检测技术,有望实现尿液样本自...
日期:09-03
网络小说吧推书贴_网友发贴著书风靡互联网 贴吧成最大创作基地
  十年前,台湾网络写手痞子蔡的《第一次亲密接触》通过网络发表,作品在回贴、转贴、待续中,让“痞子蔡”和““轻舞飞扬”之间的爱情故事风靡了整个网络,并成为社会热议话题...
日期:07-29
应用开放新体验 360极速浏览器打响双核攻坚战(360浏览器极速版2.0.4)
  随着IE9与Firefox4、Chrome10的推出,国内针对浏览器市场的讨论愈演愈烈。有互联网专家认为,IE9不兼容Windows XP系统将为国产双核浏览器带来发展机遇。国产浏览器领先者...
日期:07-27
马斯克:xAI将在两周后发布Grok V1.5聊天机器人_马斯克聊天室
通信世界网消息(CWW)埃隆・马斯克在当地时间 2 月 21 日在社交媒体平台 X 发文称,人工智能初创公司 xAI 将在两周后发布 Grok V1.5 聊天机器人,“目前还远非完美,但会迅速改进”...
日期:02-23
华为将于5月6-7日举办鲲鹏昇腾开发者峰会2023
【】5月4日消息,鲲鹏昇腾开发者峰会2023将于5月6-7日在东莞松山湖举行,旨在搭建伙伴、开发者学习、交流的平台帮助开发者深入了解鲲鹏、昇腾全栈技术,加速行业数智化的技术、产...
日期:09-30
三星四季度营收510亿美元同比下降3.8%,净利54.5亿
1月31日消息,周三,韩国三星电子公布了2023年第四季度和全年的财报。数据显示,三星第四季度营收为510亿美元,同比下降了3.8%,营业利润为21.2亿美元,同比下滑了34.57%,净利润为54.5亿...
日期:01-31
报道称百度文心一言即将免费开放200万 -500万长文本能力_baiduxinwen
划重点:⭐️ 百度将免费开放长文本能力,文字范围在200万 -500万之间。⭐️ 百度文心一言即将进行版本升级,现文本上限为2.8万字。沈南鹏美团占股⭐️ 这一举措将在下个月实施,提供更...
日期:03-25
iPhone 14 Pro立功了!苹果市值一夜暴涨超万亿元_iphone12pro溢价回落
日前,苹果公司正式发布了2022年第三季度业绩报告。其中显示,本季度实现营收901.46亿美元,同比增长8.1%,实现净利润207.1亿美元(约合人民币1500亿元),同比微增0.83%。现在买applewat...
日期:11-02
算力互联董事长唐德兵:生态合作推动智能算力走向算力智能
(原标题:算力互联董事长唐德兵:生态合作推动智能算力走向算力智能) 9 月 16 日,以“数聚中卫 算引未来”为主题的 2023 云天大会...
日期:09-19
雷军给武大捐13亿:不主张攀比 只为感恩_雷军在武大演讲忆18岁梦想
根据武汉大学官网的消息,小米集团创始人、董事长兼首席执行官雷军在 11 月 29 日上午向母校捐赠了 13 亿元人民币。这次捐赠的重点主要包括支持数理化文史哲六大学科基础研究...
日期:11-29
Facebook chrome_TechCrunch:Google+是工具 Facebook是玩具
  各有特色   昨天与同事讨论Facebook和Google+时,我站到了Google+一边。为什么?因为工具比玩具重要。诚然,Facebook每天拥有5亿的独立用户访问量,因此从数字角度来看,我是...
日期:07-23
百度q3财报发布时间「百度Q3财报:营收344.47亿元,AI原生应用数据指标显著增长」
百度Q3财报:营收344.47亿元,AI原生应用数据指标显著增长 通信产业网|2023-11-21 17:24:50作者:通文来源:百度索尼微单A7R【通信产业网 讯】北京时间11月21日,百度发布第三季度财...
日期:11-30
小伙因分手连喝半月白酒变成小黄人:酒精过量肝脏受损发炎
11月2日消息,喝酒需适量,酒精摄入过多对肝脏的损害非常大。小米civi 2为啥用骁龙处理器据报道,近日20岁小伙被公司裁员后女友又跟其分手,意志消沉下连日饮酒消愁。他每天至少喝...
日期:11-02
Stability AI 推出稳定视频扩散 API 插件引起争议
12月22日 消息:Stability AI,以其稳定扩散文本到图像生成器而著称的公司,近日宣布推出新的基础图像到视频模型——稳定视频扩散(Stable Video Diffusion,SVD),并已在其开发者平台...
日期:12-22
比凯美瑞还便宜!特斯拉Model 3美国售价将低于20万_特斯拉model 3美国多少钱
快科技6月12日消息,近日,有消息称特斯拉对其供应链进行调整,在美销售的Model 3不再使用宁德时代的电池,以便符合政府发布的全额电动汽车税收减免政策”,加上部分地区已有的补贴政...
日期:06-13