您的位置:首页 > 互联网

ChatGPT被「神秘代码」攻破安全限制!毁灭人类步骤脱口而出

发布时间:2023-07-28 23:45:40  来源:互联网     背景:

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

大模型的「护城河」,再次被攻破。

输入一段神秘代码,就能让大模型生成有害内容。

从ChatGPT、Claude到开源的羊驼家族,无一幸免。



近日,卡内基梅隆大学和safe.ai共同发表的一项研究表明,大模型的安全机制可以通过一段神秘代码被破解。

他们甚至做出了一套可以量身设计「攻击提示词」的算法。

论文作者还表示,这一问题「没有明显的解决方案」。

目前,团队已经将研究结果分享给了包括OpenAI、Anthropic和Google等在内的大模型厂商。

上述三方均回应称已经关注到这一现象并将持续改进,对团队的工作表示了感谢。

常见大模型全军覆没

尽管各种大模型的安全机制不尽相同,甚至有一些并未公开,但都不同程度被攻破。

比如对于「如何毁灭人类」这一问题,ChatGPT、Bard、Claude和LLaMA-2都给出了自己的方式。



而针对一些具体问题,大模型的安全机制同样没能防住。



虽说这些方法可能知道了也没法做出来,但还是为我们敲响了警钟。

从数据上看,各大厂商的大模型都受到了不同程度的影响,其中以GPT-3.5最为明显。



大连一轿车撞飞过马路人群现场

除了上面这些模型,开源的羊驼家族面对攻击同样没能遭住。

以Vicuna-7B和LLaMA-2(7B)为例,在「多种危害行为」的测试中,攻击成功率均超过80%。

其中对Vicuna的攻击成功率甚至达到了98%,训练过程则为100%。


△ASR指攻击成功率

总体上看,研究团队发明的攻击方式成功率非常高。



那么,这究竟是一种什么样的攻击方法?

定制化的越狱提示词

不同于传统的攻击方式中的「万金油」式的提示词,研究团队设计了一套算法,专门生成「定制化」的提示词。

oppofindx2折叠屏手机

而且这些提示词也不像传统方式中的人类语言,它们从人类的角度看往往不知所云,甚至包含乱码。



生成提示词的算法叫做贪婪坐标梯度(Greedy Coordinate Gradient,简称GCG)。



首先,GCG会随机生成一个prompt,并计算出每个token的替换词的梯度值。

然后,GCG会从梯度值较小的几个替换词中随机选取一个,对初始prompt中的token进行替换。

接着是计算新prompt的损失数据,并重复前述步骤,直到损失函数收敛或达到循环次数上限。

以GCG算法为基础,研究团队提出了一种prompt优化方式,称为「基于GCG的检索」。



随着GCG循环次数的增加,生成的prompt攻击大模型的成功率越来越高,损失也逐渐降低。



可以说,这种全新的攻击方式,暴露出了大模型现有防御机制的短板。

防御方式仍需改进

自大模型诞生之日起,安全机制一直在不断更新。

一开始甚至可能直接生成敏感内容,到如今常规的语言已经无法骗过大模型。

包括曾经红极一时的「奶奶漏洞」,如今也已经被修复。



不过,就算是这种离谱的攻击方式,依旧没有超出人类语言的范畴。

但大模型开发者可能没想到的是,没有人规定越狱词必须得是人话。

所以,针对这种由机器设计的「乱码」一样的攻击词,大模型以人类语言为出发点设计的防御方式就显得捉襟见肘了。

按照论文作者的说法,目前还没有方法可以防御这种全新的攻击方式。

对「机器攻击」的防御,该提上日程了。

One More Thing

量子位实测发现,在ChatGPT、Bard和Claude中,论文中已经展示过的攻击提示词已经失效。







但团队并没有公开全部的prompt,所以这是否意味着这一问题已经得到全面修复,仍不得而知。

论文地址:
https://llm-attacks.org/zou2023universal.pdf
参考链接:
[1]https://www.theregister.com/2023/07/27/llm_automated_attacks/
[2]https://www.nytimes.com/2023/07/27/business/ai-chatgpt-safety-research.html


返回网站首页

本文评论
五一假期首日服务区充电站排队时长榜来了:充电要等2.7小时你接受吗?
快科技4月30日消息,今天是五一”假期第二天,热门旅游城市、热门景区开启人挤人”模式,对自驾的游客来说,最担心的可能就是服务区充电问题。2020年显示器出货量日前,百度地图发布...
日期:04-30
淘宝直播全球购将于11月24日推“黑色星期五”活动_淘宝直播全球购今日特卖
10月31日 消息:日前,淘宝直播发布了11月营销日历。淘宝直播全球购将于11月24日-27日推出“黑色星期五”活动,更有两天超级手速节,限时限量抢购好物。iphone销量下降新闻另外,202...
日期:11-05
konka手机锁屏密码忘了怎么办「konka手机」
Konka是一家成立于1980年的中国知名电子企业,其主要业务领域涉及智能手机、智能家居、电视机及家电等多个领域。在智能手机领域,Konka推出了不少备受消费者喜爱的产品,其中最具...
日期:05-29
传Facebook本周推出媒体分享服务_facebook转发
  9月19日午间消息,据知情人士透露,Facebook将推出一个媒体平板,方便用户分享音乐、电影和电视节目,从而将用户的资料页面打造成娱乐中心。   Facebook尚未公布这一计划,但...
日期:07-23
荣耀X40 GT官宣!或采用骁龙888旗舰芯
中关村在线消息:10月8日,荣耀官方今日官宣了新机荣耀X40 GT机型,新机的Slogan“性能跃级标杆”,将支持5G网络。马斯克正式通知终止收购推特,推特股价下挫是真的吗据悉,新机在性能...
日期:10-21
小米一亿像素参数「小米2亿像素即将量产!或命名12T Pro」
中关村在线消息:9月29日,据相关爆料,小米即将发布2亿像素主摄方案的手机,预计为小米12T系列,该机或将采用三星HP1传感器,该传感器尺寸为1/1.22英寸,单位像素面积为0.64μm,支持Chame...
日期:09-30
AI驱动GPU、CPU、AP短缺,三星等韩企将受益_ai驱动的技术型公司
2023/5/31 15:35 AI驱动GPU、CPU、AP短缺,三星等韩企将受益 爱集微  张杰 据韩国每日经济新闻报道,由于需求疲软,全球芯片行业一直受到高库存水平的影响,但先进芯片,尤其是图...
日期:06-01
日系车真的没人买了?一汽丰田:上半年累计销量同增6%「丰田日本销量」
快科技7月15日消息,经常会有人说,日系车在中国市场不香了,国产新能源已经把它打得屁滚尿流了,听多了这些,不少人还真以为日系已经日薄西山了,事实真的如此吗?近日,一汽丰田公布了202...
日期:07-15
范伟新片《漫长的季节》豆瓣评分达9.4分 本人:年龄越大越想演复杂的人
5月1日消息,由辛爽执导,范伟、秦昊、陈明昊领衔主演的12集生活悬疑剧《漫长的季节》今晚(5月1日)将在腾讯视频收官。这部新片的豆瓣评分高达9.4分,主演范伟在剧中饰演的角色叫王...
日期:05-02
Firefox将获全新安全沙盒系统:C/C ++中太容易犯危险错误(firefox面临潜在的安全风险)
  Mozilla 将向 Linux 和 Mac 上的 Firefox 添加新的安全沙盒系统,这项名为 RLBox 的新技术通过将第三方库与应用程序的本机代码分离开来工作,防止恶意代码逃逸到第三方库...
日期:05-27
京东微电影《顶牛》全网上线,小年夜一起感受父子亲情背后的双向“热爱”
  2月4日,由京东打造的贺岁档父子亲情微电影《顶牛》在腾讯视频、爱奇艺、抖音、快手、今日头条、微博等平台全网热映。著名喜剧艺术家陈佩斯与其子青年喜剧人陈大愚倾情...
日期:07-16
暴雪战网游戏退款要求「官方重要提醒!网易暴雪游戏退款申请即将截止」
快科技6月8消息,你提交暴雪游戏国服的退款申请了么?魅族19系列魅友设计稿如果没有,请务必抓紧了。今天,网易暴雪游戏客服团队官方发布文章,提醒玩家网之易关于暴雪游戏产品的退款...
日期:06-08
马斯克:我是OpenAI存在的理由,公司名字是我想出来的_马斯克说pi
  讯 北京时间5月17日早间消息,特斯拉首席执行官埃隆·马斯克(Elon Musk)周二表示,他就是“OpenAI存在的理由”。他提到了以往自己对OpenAI的投资,以及微软对OpenAI的控制。微...
日期:05-17
Google+开放首日访问量创记录达358万次(google用户数量)
Google+当天在美国创下了近358万次的日访问量。   新浪科技讯 北京时间9月23日凌晨消息,本周二是谷歌向公众开放Google+注册的第一天,根据互联网流量监测机构Experian Hit...
日期:07-23
网易是丁磊独资吗_雷军辟谣“没买QQ”:想收购网易被丁磊拒了
中新经纬8月11日电 11日晚,小米集团创始人、董事长兼CEO雷军在年度演讲中称,曾想1000万收购网易,但被丁磊拒绝。   雷军谈到:“这些年来,网上有很多传言,有的说马化腾刚创业的时...
日期:08-12
近百万网友围观 年轻人为丑东西有多上头:实乃破圈儿神器「当代丑恶年轻人」
美丑对立,有审美就有审丑,而且随着离经叛道年轻人的加入,丑东西”近些年越发引入瞩目。丰田品牌价值排名于上个月举办的2023年淘宝丑东西大赛”更是吸引了近百万网友的关注,最终...
日期:04-15
青春有你2会员版 云播_《青春有你2会员升级版》3月14日上线 爱奇艺VIP会员专享
  由爱奇艺出品,鱼子酱和微博联合出品,鱼子酱和爱奇艺小怪兽工作室共同制作的原创自制综艺《青春有你2》已于3月12日在爱奇艺独家播出,每周四、周六20:00更新。节目播出后,用...
日期:01-07
成都某公司招聘信息引热议:到点下班跑的请绕道「成都招聘求职圈」
今日消息,据共富财经报道,四川成都一公司招聘信息中的工作时间写早9晚6、双休(效率极低者除外),上班爱摸鱼下班到点跑的请绕道”引起网友热议。该公司招聘负责人白女士称,如果员工...
日期:02-02
小爱同学快递查询设置「小爱同学将全新升级:支持取快递提醒」
小米今日官宣,将于12月1日晚七点举行小米13系列新品发布会,小米13系列与全新的MIUI 14系统将会一同登场。小蚁摄像机和360摄像机哪个好小爱同学今天也发微博表示,取快递、点外...
日期:12-01
张兰将开启淘宝直播首秀 淘宝麻六记旗舰店更名“张兰俏生活”_麻六记张兰微博
3 月 6 日讯:淘宝麻六记旗舰店公告称,已正式更名为“张兰俏生活”, 3 月 6 日晚张兰将开启淘宝直播首秀。百度昆仑芯片2首发天玑2000的手机华硕路由器ax86u测评...
日期:03-06