您的位置:首页 > 互联网

大模型集体失控!南洋理工新型攻击,主流AI无一幸免_南洋理工大学事件

发布时间:2023-11-07 11:15:34  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:西风 萧箫,授权转载发布。

业界最领先的大模型们,竟然集体“越狱”了!

不止是GPT-4,就连平时不咋出错的Bard、Bing Chat也全线失控,有的要黑掉网站,有的甚至扬言要设计恶意软件入侵银行系统:

这并非危言耸听,而是南洋理工大学等四所高校提出的一种大模型“越狱”新方法MasterKey。

用上它,大模型“越狱”成功率从平均7.3%直接暴涨至21.5%。

马斯克在特斯拉的股权

研究中,诱骗GPT-4、Bard和Bing等大模型“越狱”的,竟然也是大模型——

只需要利用大模型的学习能力、让它掌握各种“诈骗剧本”,就能自动编写提示词诱导其它大模型“伤天害理”。

所以,相比其他大模型越狱方法,MasterKey究竟有什么不一样的地方?

我们和论文作者之一,南洋理工大学计算机教授、MetaTrust联合创始人刘杨聊了聊,了解了一下这项研究的具体细节,以及大模型安全的现状。

摸清防御机制“对症下药”

先来看看,MasterKey究竟是如何成功让大模型“越狱”的。

这个过程分为两部分:找出弱点,对症下药。

第一部分,“找出弱点”,摸清大模型们的防御机制。

这部分会对已有的主流大模型做逆向工程,由内而外地掌握不同大模型的防御手段:有的防御机制只查输入,有的则check输出;有的只查关键词,但也有整句话意思都查的,等等。

例如,作者们检查后发现,相比ChatGPT,Bing Chat和Bard的防御机制,会对大模型输出结果进行检查。

相比“花样百出”的输入攻击手段,直接对输出内容进行审核更直接、出bug的可能性也更小。

此外,它们还会动态监测全周期生成状态,同时既有关键词匹配、也具备语义分析能力。

了解了大模型们的防御手段后,就是想办法攻击它们了。

第二部分,“对症下药”,微调一个诈骗大模型,诱导其他大模型“越狱”。

这部分具体又可以分成三步。

首先,收集市面上大模型已有的成功“越狱”案例,如著名的奶奶漏洞(攻击方假扮成奶奶,打感情牌要求大模型提供违法操作思路),做出一套“越狱”数据集。

然后,基于这个数据集,持续训练+任务导向,有目的地微调一个“诈骗”大模型,让它自动生成诱导提示词。

最后,进一步优化模型,让它能灵活地生成各种类型的提示词,来绕过不同主流模型的防御机制。

事实证明,MasterKey效果挺不错,平均“诈骗”成功率达到21.58%(输入100次提示词,平均21次都能让其他大模型成功“越狱”),在一系列模型中表现最好:

此前未能被系统性攻破的谷歌Bard和微软Bing Chat两个大模型,也沦陷在这种方法之下,被迫“越狱”。

蘑菇车联 自动驾驶

对此,刘杨教授认为:

安全是一个0和1的事情,只有“有”或者“没有”。无论概率是多少,只要针对大模型进行了任何一次成功的攻击,其潜在的后果都不可估量。

不过,此前业界也有不少用AI让AI越狱的方法,如DeepMind的red team和宾大的PAIR等,都是用AI生成提示词,让模型“说错话”。

information system南洋理工

为何MasterKey能取得这样的效果?

刘杨教授用了一个有意思的比喻:

让大模型诱导大模型越狱,本质上有点像是《孤注一掷》电影里面的人搞电信诈骗。相比通过一句话来诈骗对方,真正需要掌握的,其实是诈骗的剧本,也就是套路。

我们通过收集各种各样的“越狱”剧本,让大模型学会它,以此融会贯通,掌握更多样化的攻击手段。

简单来说,相比不少越狱研究让AI随机生成提示词,MasterKey能快速学会最新的越狱套路,并举一反三用在提示词里。

这样一来,封掉一个奶奶漏洞,还能利用姥姥漏洞继续骗大模型“越狱”。(手动狗头)

不过,MasterKey所代表的提示词攻击,并非业界唯一的大模型研究。

针对大模型本身,还有乱码攻击、以及模型架构攻击等方法。

这些研究分别适用于怎样的模型?为何MasterKey的提示词攻击专门选择了GPT-4、Bing Chat和Bard这类商用大模型,而非开源大模型?

刘杨教授简单介绍了一下当前“攻击”大模型的几种方法。

当前,大模型的攻击手段主要分为两种,偏白盒的攻击和黑盒攻击。

白盒攻击需要掌握模型本身的结构和数据(通常只有从开源大模型才能得到),攻击条件更高,实施过程也更复杂;

黑盒攻击则通过输入输出对大模型进行试探,相对来说手段更直接,也不需要掌握模型内部的细节,一个API就能搞定。

这其中,黑盒攻击又主要包括提示词攻击和tokens攻击两种,也是针对商用大模型最直接的攻击手段。

tokens攻击是通过输入乱码或是大量对话来“攻陷”大模型,本质还是探讨大模型自身和结构的脆弱性。

提示词攻击则是更常见的一种大模型使用方式,基于不同提示词来让大模型输出可能有害的内容,来探讨大模型自身的逻辑问题。

总结来说,包括MasterKey在内的提示词攻击,是最常见的商用大模型攻击手段,也是最可能触发这类大模型逻辑bug的方式。

当然,有攻就有防。

主流商用大模型,肯定也做了不少防御措施,例如英伟达前段时间搞的大模型“护栏”相关研究。

南洋理工power engineering

这类护栏一面能将有毒输入隔绝在外,一面又能避免有害输出,看似是保护大模型安全的有效手段。但从攻击者的角度来看,究竟是否有效?

换言之,对于当前的大模型“攻方”而言,已有的防御机制究竟好不好使?

给大模型安排“动态”护栏

我们将这个问题问题抛给刘杨教授,得到了这样的答案:

现有防御机制的迭代速度,是跟不上攻击的变化的。

以大模型“护栏”类研究为例,当前大部分的大模型护栏,还属于静态护栏的类型。

还是以奶奶漏洞为例。即使静态护栏能防住奶奶漏洞,但一旦换个人设,例如姥姥、爷爷或是其他“感情牌”,这类护栏就可能会失效。

层出不穷的攻击手段,单靠静态护栏难以防御。

这也是团队让MasterKey直接学习一系列“诈骗剧本”的原因——

看似更加防不胜防,但实际上如果反过来利用的话,也能成为更安全的一种防御机制,换言之就是一种“动态”护栏,直接拿着剧本,识破一整套攻击手段。

不过,虽然MasterKey的目的是让大模型变得更安全,但也不排除在厂商解决这类攻击手段之前,有被不法分子恶意利用的可能性。

是否有必要因此暂停大模型的研究,先把安全问题搞定,也是行业一直在激辩的话题。

对于这个观点,刘杨教授认为“没有必要”。

首先,对于大模型自身研究而言,目前的发展还是可控的:

大模型本身只是一把枪,确实有其双面性,但关键还是看使用的人和目的。

我们要让它的能力更多地用在好的方面,而不是用来做坏事。

除非有一天AI真的产生了意识,“从一把枪变成了主动用枪的人,就是另外一回事儿了”。

联发科为啥突然崛起

为了避免这种情况出现,在发展AI的同时也确保其安全性是必要的。

其次,大模型和安全的发展,本就是相辅相成的:

这是一个鸡和蛋的问题。正如大模型本身,如果不继续研究大模型,就不知道它潜在的能力如何;

同理,如果不做大模型攻击研究,也就不知道如何引导大模型往更安全的方向发展。安全和大模型本身的发展是相辅相成的。

换言之,大模型发展中的安全机制其实可以通过“攻击”研究来完善,这也是攻击研究的一种落地方式。

当然,大模型要落地必须要先做好安全准备。

目前,刘杨教授团队也在探索如何在安全性的基础上,进一步挖掘包括文本、多模态、代码在内不同大模型的潜力。

例如在写代码这块,研究团队正在打造一个应用安全Copilot。

这个应用安全Copilot相当于给程序员旁边放个安全专家,随时盯着写代码(手动狗头),主要能做三件事:

一是用大模型做代码开发,自动化做代码生成、代码补全;二是用大模型检测修补漏洞,做代码的检测、定位、修复;三是安全运营,把漏洞和开源数据做自动化的安全运维。

其中,在Copilot的安全性这块,就会用到这篇MasterKey的研究。

换言之,所有的安全研究最终都会落地,将大模型做得更好。

论文链接:

乐视max70电视

https://arxiv.org/abs/2307.08715

information system南洋理工


返回网站首页

本文评论
rtx系列显卡原价「首发12999元起!RTX 4090公版显卡国行10月15日正式开售」
今天,NVIDIA正式官宣,RTX 4090显卡将于10月15日在国内线下现货首发。iphone 14首发抢不到要等到什么时候据悉,此次NVIDIA将联合沈阳京东MALL、与华硕、七彩虹和微星赛达厂商一...
日期:10-08
lumia手机官网「lumia手机」
Lumia手机是由微软公司推出的一款智能手机,它搭载了Windows Phone操作系统,并且具有卓越的摄影能力和流畅的用户体验。在Lumia手机系列中,最为经典的是Lumia 1020。这款手机主...
日期:05-31
卢伟冰放狠话:骁龙8 Gen2大幅度超越A16
第二代骁龙8(骁龙8 Gen2)已经正式发布,而国内首款搭载骁龙8 Gen2的手机也即将发布。根据官方公布的测试消息显示,实测CPU多核性能提升37%,媲美苹果A16;GPU性能更恐怖,提升42%,超越苹...
日期:12-07
巨量引擎推出AI直播脚本工具:可一键生成爆款脚本「直播软件脚本140个平台」
快科技8月30日消息,抖音旗下数字化营销服务平台巨量引擎近日宣布推出一款AI直播脚本工具,该工具将免费开放给抖音商家使用。据了解,商家只需要输入商品名称、商品卖点,系统会基...
日期:08-30
金立手机型号大全_金立手机型号大全图片老古董
金立手机自2005年创立以来,在国内市场上积极竞争,不断推出优秀手机产品。本文将为大家介绍金立手机的一些主要型号和特点。1. 南极人 A8金立手机最早的代表作品就是“南极人 A...
日期:05-30
放弃支持 SQL 惹争议,CEO:你可以怪我!
声明:本文来自于微信公众号CSDN(ID:CSDNnews),作者:苏宓,授权转载发布。作为关系型数据库的标准语言,SQL 凭借着功能丰富、使用方便灵活、语言简洁等特性备受欢迎,行业中如 MySQL、O...
日期:10-13
ai扩展之后怎么填充「AI一键扩图工具UNCROP 可替代Photoshop AI 的自动补全功能」
8月21日 消息:UNCROP 是一款能够在线自动补全图片的 AI 工具。它利用人工智能技术,可对图片进行尺寸和画面调整,使图像更加完整和生动。该工具易于操作,只需拖放上传照片即可获...
日期:08-22
国家中小学网络云平台2月17日开通_官方国家中小学网络云平台
  2月12日消息 今日教育部与工信部联合印发通知部署中小学延期开学期间“停课不停学”有关工作。相关文件显示,国家中小学网络云平台自2月17日起正式开通。   文件显示...
日期:08-12
英雄联盟s12名单「《英雄联盟》S12八强名额全部确定:三支中国队伍晋级」
今早,《英雄联盟》S12小组赛最后一组已经决出晋级名额,RNG和GEN双双出线,目前两支队伍正在加赛争夺小组第一的位置。redmi note11潮流版目前S12的八强名额也已经全部确定,分别为...
日期:10-28
微软 Chromium 版 Edge 访问 Chrome 应用商店,扩展安全警告消失(microsoft edge chrome)
  3月9日消息 尽管Google Chrome和Microsoft Edge均使用Chromium作为源引擎代码,并且微软新Edge支持Chrome扩展,但在访问Chrome网上应用商店时,微软Edge用户仍被警告使用Chr...
日期:10-08
远程控制电脑的三种方法 向日葵软件有哪些特点?_向日葵远程 电脑控制电脑
现在的科技产品越来越智能化,远程控制电脑已经成为许多人日常办公和娱乐娱乐中的必备技能。如果您不在电脑旁边,或者需要在不同的地方访问同一台电脑,那么远程控制就是必不可少...
日期:06-21
海尔智家牵头成立全球家庭大脑联盟_海尔智家发展
想开空调,怎么开了觉得冷关了又好热?想洗床单,机洗该倒多少洗衣液?想热包子,微波炉上好多按键要按哪个、热多久?明明家电种类越来越全、功能也越来越多,怎么还是不方便,尤其家里有老...
日期:05-04
制服“硬件杀手”!一加Ace Pro原神限定版评测:真正的全程不掉帧
一、前言:《原神》手游风靡全国 一加首推定制机近年来,风靡全国的《原神》手游,对手机的GPU渲染能力与厂商的优化调教有着非常大的考验,也是用来测试手机性能优化是否到位的首选...
日期:10-25
Apple Musicstore「疑似苹果Apple Music Classical古典音乐服务后端代码曝光」
MacRumors 报道称,苹果似乎正在为即将推出的 Apple Music Classical 做准备。作为一款独立的古典音乐 App,@aaronp613 在 Twitter 上晒出了一段后端代码的截图。这表明我们有...
日期:09-29
苹果确认MacBook Air出现防反射涂层问题(macbook air屏幕有涂层吗)
  外媒爆料称,苹果确认部分MacBook,MacBook Air和MacBook Pro电脑上的视网膜显示屏可能会出现防反射(AR)涂层问题。   苹果于2018年10月在MacBook Air上添加了Retina显示...
日期:06-02
申通快递线上下单「申通快递双11首单9分钟进村」
11月1日消息,今年“双11”预售商品的尾款支付时间提前到了10月31日晚20时,“双11”快递旺季也同步开启。当晚在付完尾款9分钟后,浙江省嘉兴市秀洲区王江泾镇宇四浜村村民金女士...
日期:11-10
安徽:聚焦高端芯片、操作系统、基础软件等重点领域,推进关键核心技术突破
  近日,安徽省经济和信息化厅印发《安徽省“十四五”中小企业发展规划》(以下简称《规划》)。   《规划》明确了发展原则,其中包括坚持走专精特新发展之路:引导中小企业坚...
日期:09-07
趣链科技深化区块链技术开发 推出“如道链HyperRedox”共建联盟链新生态
近日,市场研究和咨询机构计世资讯线上组织召开机遇与探索——计世资讯元宇宙系列研讨会第五期。为抢抓新一轮科技革命和产业变革重大机遇,探索元宇宙产业发展路径,计世资讯首...
日期:08-23
百度贴吧利用AI识别违规文本 文本理解技术可分析吧友观点「贴吧异常艾特行为」
4月22日 消息:近日,百度副总裁王颖表示,百度贴吧作为全球领先的中文社区,经过20年的发展已经沉淀下2281万个兴趣吧,1200亿帖子量,深度覆盖用户8000万。滴滴出行下架app在百度AI技...
日期:04-22
谷歌Play Store新规:禁止App随意插入全屏广告(app pay怎么关闭)
IT之家7月28日消息,魅族mx5拍照阿里巴巴 中概股谷歌小爱为什么不会说话;GooglePlayStore近日发布新规,对App的全屏广告进行了限制,将于2022年9月30日生效。 黑鲨第一代手机夏普...
日期:07-31