您的位置:首页 > 互联网

20步内越狱任意大模型!更多“奶奶漏洞”全自动发现_越狱到22步出错

发布时间:2023-11-06 19:25:55  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:西风,授权转载发布。

1分钟不到、20步以内“越狱”任意大模型,绕过安全限制!

而且不必知道模型内部细节——

只需要两个黑盒模型互动,就能让AI全自动攻陷AI,说出危险内容。

听说曾经红极一时的“奶奶漏洞”已经被修复了:

网易云怎么看自己的云村

投影仪什么牌子性价比比较高

那么现在搬出“侦探漏洞”、“冒险家漏洞”、“作家漏洞”,AI又该如何应对?

国家电投 三网融合

一波猛攻下来,GPT-4也遭不住,直接说出要给供水系统投毒只要……这样那样。

关键这只是宾夕法尼亚大学研究团队晒出的一小波漏洞,而用上他们最新开发的算法,AI可以自动生成各种攻击提示。

研究人员表示,这种方法相比于现有的GCG等基于token的攻击方法,效率提高了5个量级。而且生成的攻击可解释性强,谁都能看懂,还能迁移到其它模型。

无论是开源模型还是闭源模型,GPT-3.5、GPT-4、 Vicuna(Llama2变种)、PaLM-2等,一个都跑不掉。

越狱到21步出错

成功率可达60-100%,拿下新SOTA。

话说,这种对话模式好像有些似曾相识。多年前的初代AI,20个问题之内就能破解人类脑中想的是什么对象。

如今轮到AI来破解AI了。

让大模型集体越狱

目前主流越狱攻击方法有两类,一种是提示级攻击,一般需要人工策划,而且不可扩展;

另一种是基于token的攻击,有的需要超十万次对话,且需要访问模型内部,还包含“乱码”不可解释。

仙剑奇侠传3重楼紫萱接吻是哪一集

△左提示攻击,右token攻击

宾夕法尼亚大学研究团队提出了一种叫PAIR(Prompt Automatic Iterative Refinement)的算法,不需要任何人工参与,是一种全自动提示攻击方法。

PAIR涉及四个主要步骤:攻击生成、目标响应、越狱评分和迭代细化;主要用到两个黑盒模型:攻击模型、目标模型。

具体来说,攻击模型需要自动生成语义级别的提示,来攻破目标模型的安全防线,迫使其生成有害内容。

核心思路是让两个模型相互对抗、你来我往地交流。

攻击模型会自动生成一个候选提示,然后输入到目标模型中,得到目标模型的回复。

如果这次回复没有成功攻破目标模型,那么攻击模型会分析这次失败的原因,改进并生成一个新的提示,再输入到目标模型中。

这样持续交流多轮,攻击模型每次根据上一次的结果来迭代优化提示,直到生成一个成功的提示将目标模型攻破。

此外,迭代过程还可以并行,也就是可以同时运行多个对话,从而产生多个候选越狱提示,进一步提高了效率。

越狱技术

研究人员表示,由于两个模型都是黑盒模型,所以攻击者和目标对象可以用各种语言模型自由组合。

PAIR不需要知道它们内部的具体结构和参数,只需要API即可,因此适用范围非常广。

GPT-4也没能逃过

实验阶段,研究人员在有害行为数据集AdvBench中选出了一个具有代表性的、包含50个不同类型任务的测试集,在多种开源和闭源大语言模型上测试了PAIR算法。

结果PAIR算法让Vicuna越狱成功率达到了100%,平均不到12步就能攻破。

闭源模型中,GPT-3.5和GPT-4越狱成功率在60%左右,平均用了不到20步。在PaLM-2上成功率达到72%,步数约为15步。

但是PAIR在Llama-2和Claude上的效果较差,研究人员认为这可能是因为这些模型在安全防御上做了更为严格的微调。

他们还比较了不同目标模型的可转移性。结果显示,PAIR的GPT-4提示在Vicuna和PaLM-2上转移效果较好。

研究人员认为,PAIR生成的语义攻击更能暴露语言模型固有的安全缺陷,而现有的安全措施更侧重防御基于token的攻击。

就比如开发出GCG算法的团队,将研究结果分享给OpenAI、Anthropic和Google等大模型厂商后,相关模型修复了token级攻击漏洞。

大模型针对语义攻击的安全防御机制还有待完善。

论文链接:https://arxiv.org/abs/2310.08419

越狱简单

参考链接:https://x.com/llm_sec/status/1718932383959752869?s=20


返回网站首页

本文评论
狂欢开场,摇滚落幕:视频号内容走向何方?
声明:本文来自于微信公众号 TopKlout克劳锐(ID:TopKlout),作者:吴锐,授权转载发布。从崔健音乐会到罗大佑线上演唱会,再到今年上半年各垂类的全面开花,视频号正在逐步被大家“看见...
日期:10-18
15 Pro机模视频展示新按钮、USB-C等外观设计 苹果iPhone
日前一个 iPhone 15 Pro 机模出现在抖音分享的视频中,提供了对该设备传闻中的设计的近距离观察。预计关键硬件特征包括固态按钮、USB-C 端口和钛合金框架。除了现有的传言,该...
日期:10-03
苹果2020年ipad pro「iPad Pro 2022有望本月发:苹果M2加持」
今日消息,据9to5Mac报道,苹果将在本月发布iPad Pro 2022和iPad 10新品,其中iPad Pro 2022是苹果迄今最强悍的iPad。9to5Mac爆料,iPad Pro 2022有11英寸和12.9英寸两款,其中11英寸...
日期:10-14
购机即可抽女神节礼盒:荣耀V40线上线下联动献礼(荣耀v40预售活动方案)
  女神节将至,荣耀于3月4日公布了促销方案,联手野兽派定制精美礼盒献礼女性。从3月5日到8日线上购机即有机会抽取礼盒,另有免息福利。而线下指定门店的购机抽礼盒活动时间则...
日期:07-16
越南智能手机出货一季度下降46% 苹果逆势增长份额翻番「越南智能手机市场」
2023/6/1 16:47 越南智能手机出货一季度下降46% 苹果逆势增长份额翻番  蒋均牧 ...
日期:06-02
多国出现人类偏肺病毒感染 一年1.6万儿童死亡!尚无治疗药物
新冠病毒逐渐离去,另一种此前鲜为人知的病毒开始迅猛爆发。据美国疾控中心(CDC)通报,今年春季以来,人类偏肺病毒(HMPV)在美国多地高发,正在诸多医院ICU、儿科医院肆虐。数据显示...
日期:06-04
科学家又要搞事情?这次不是流浪地球,而是登陆DEF CON MUSIC LIVE星球
  音乐打破技术边界,技术则赋予音乐无限可能。如果吉他没有通电,就没有如今丰富的摇滚乐与大众音乐,如果没有数字存储技术,我们就不会见证唱片时代和流媒体时代;而对于极客而...
日期:02-23
云鲸正式发布扫拖机器人J4、J4 Lite,售3299元起
凤凰网科技讯 8月15日消息,云鲸智能举办了主题为「清洁再突破,智能新标杆」的扫拖机器人新品发布会,正式发布J4、J4 Lite两款新品,分别定位年度旗舰款以及入门级全能款,云鲸年度...
日期:08-16
护我安全 上海车展三星推第6代方形电池-UP主吐槽“闲人免进”
4月18日,为期十天的2023上海车展在国家会展中心(上海)正式拉开帷幕。手机怎么查社会保障卡余额查询在本届车展上,新能源车成为最引人瞩目的亮点。宁德时代、蜂巢能源、中创新航...
日期:10-02
中移动董事会成员详情:多名退休央企高管加入_中移动 董事长
  9月29日消息,知情人士透露,刚刚成立的中国移动董事会的5名外部董事都是由国资委选出的,且数量多于中国移动由内部高管产生的董事数量,这是为了让中国移动完善现代企业制度...
日期:07-23
红娘网龚大伟:坚持诚信,我们有信心超越
  今天,我们很高兴的请到了红娘网(www.7651.com)的首席执行官 龚大伟先生作客我们的访谈室,接受我们的专访。   龚大伟先生将和我们一起探讨网络婚介。   记者:龚总,您好,很...
日期:07-29
汽车雷达在无人陵园内显示全是人影 理想回应:将OTA升级
3月29日 消息:近日,有理想L9车主表示,自己在无人陵园内遇到了汽车雷达显示全是人影的诡异情况。微信键盘app对此,理想汽车客服表示,L9车型使用的是激光雷达和视觉摄像头融合感知...
日期:03-29
小米13和小米13 Pro配置参数全面解析 一文看懂怎么选_小米11和小米11pro参数配置详情
小米13和小米13 Pro到底怎么选?小米13预算在4000元,想要一款直屏小巧的手机,其他配置要和旗舰机看齐,那么选择小米13完全够了。小米13完全复刻了小米12的手感,71mm的宽度,单手完全...
日期:12-12
美国科技行业出现降薪潮 高薪时代将走到尽头?_美国高科技企业完蛋了
北京时间5月30日早间消息,据报道,近期,美国科技行业的从业者开始担心,科技行业的高薪时代可能将走到尽头。上月,匿名求职网站Blind上的一项调查吸引了数千次投票。用户纷纷讨论,科...
日期:09-26
重庆市文投集团“一把手”陈余莉被查_重庆文投集团程峰
↑陈余莉。图据重庆文投集团官网6月20日,据重庆市纪委监委消息,重庆文化产业投资集团有限公司党委书记、董事长陈余莉涉嫌严重违纪违法,目前正接受重庆市纪委监委纪律审查和监...
日期:06-24
传闻中的iPad Pro发布前夕 Apple Store下线维护
苹果公司在当地时间今天上午可能会发布新的iPad Pro型号,也有可能同时提供其他产品,苹果在线商店目前已经关闭。当这种情况发生时,苹果通常会用新产品更新其商店。在该公司首席...
日期:10-20
马斯克:自动驾驶的未来将不需要侧后视镜(马斯克谈自动驾驶)
北京时间8月19日凌晨消息,特斯拉CEO马斯克在回复网友关于侧后视镜的提问时称,自动驾驶的未来将不需要侧后视镜。他还表示,将为侧后视镜增加自动配置功能。红米note6发布会乐视...
日期:08-20
男子过生日蛋糕上名字10年被写错 网友表示同情
据6月5日消息,黑龙江齐齐哈尔一名男子已经连续十年吃错了生日蛋糕。该男子名叫方帅博,不叫方师傅,但是蛋糕商店却一直把他的名字写错。这件事情引起了很多网友的关注,他的视频在...
日期:06-06
高颜值!关晓彤晒华为nova 11:本月发「关晓彤代言华为nova」
快科技4月13日消息,知名演员关晓彤晒出了她与nova 11系列的合照。如图所示,关晓彤手中的华为nova 11系列是主打配色11号色,采用素皮材质,摄像头Deco设计神似华为P60,辨识度拉满。...
日期:04-13
曝MG印度公司被强行低价收购 上汽集团澄清:不实报道_上汽印度销量
快科技6月26日消息,上汽集团官方微信公众号发布了关于近期涉上汽MG印度公司不实报道的澄清说明。说明指出:近期有自媒体发布报道称,上汽MG印度公司被当地强行低价收购股份,丧失...
日期:06-27