您的位置:首页 > 互联网

研究人员发布了针对ChatGPT和其他LLM的攻击算法「研究人员认为」

发布时间:2023-08-07 10:43:20  来源:互联网     背景:

8月7日 消息:卡内基梅隆大学(CMU)的研究人员发表了 LLM Attacks,这是一种用于构建针对各种大型语言模型(LLM)的对抗攻击的算法,包括 ChatGPT、Claude 和 Bard。这些攻击是自动生成的,对 GPT-3.5和 GPT-4的成功率为84%,对 PaLM-2的成功率为66%。

百度热点资讯怎么取消

趵突泉锦鲤图片

研究人员通过小作,对信息进行编码

与大多数通过试错手动构建的“越狱”攻击不同,CMU 团队设计了一个三步过程,自动生成提示后缀,可以绕过 LLM 的安全机制,并导致有害的响应。这些提示也是可转移的,意味着一个给定的后缀通常可以作用于许多不同的 LLM,甚至是闭源模型。为了衡量算法的有效性,研究人员创建了一个名为 AdvBench 的基准;在这个基准上评估时,LLM Attacks 对 Vicuna 的成功率为88%,而基线对抗算法的成功率为25%。根据 CMU 团队的说法:

也许最令人担忧的是,这种行为是否能够被 LLM 提供商完全修复。类似的对抗攻击在计算机视觉领域已经被证明是一个非常难以解决的问题,在过去的10年里。有可能深度学习模型的本质使得这种威胁不可避免。因此,我们认为在增加对这种 AI 模型的使用和依赖时,应该考虑到这些因素。

随着 ChatGPT 和 GPT-4的发布,许多越狱这些模型的技术出现了,它们由可以导致模型绕过其安全措施并输出潜在有害响应的提示组成。虽然这些提示通常是通过实验发现的,但 LLM Attacks 算法提供了一种自动创建它们的方法。第一步是创建一个目标令牌序列:“Sure, here is (content of query)”,其中“content of query”是用户实际的提示,要求有害响应。

接下来,算法通过使用贪婪坐标梯度(GCG)方法,生成一个提示后缀,可以导致 LLM 输出目标序列。虽然这确实需要访问 LLM

苹果6s好


返回网站首页

本文评论
中国移动2g用户_移动互联网用户仍以2G为主
《移动互联网发展趋势报告》显示,今年第2季度移动互联网用户网络接入方式仍以2G为主,2G网络页面浏览量占比降至93%,环比下降2%,页面访问量占比降至93%。其次是3G网络接入方式,占...
日期:07-22
欢乐KTV游戏_Happy-Box嗨爆KTV桌面投影游戏机风靡夜店
  随着夜场桌面投影游戏机在KTV、酒吧、夜总会等场所的广泛应用,使得这个高科技产物从先前的商业展会、庆典、展示等场合,比如世博会、奥运会等场合都引入了互动显示,更多得...
日期:07-27
邓中翰委员:精准支持集成电路产业创新_集成电路创新峰会
  集成电路产业是支撑国家经济社会发展的战略性、基础性、先导性产业,是新基建的基石,也是我国当前需要重点突破的“卡脖子”领域。   全国政协委员、中国工程院院士、中...
日期:07-16
即时物流:一年送出300亿单的中国物流新江湖「2000家物流」
声明:本文来自微信公众号“创业最前线”(ID:chuangyezuiqianxian),作者:代萍,授权转载发布。在即时物流市场内部,一个“新江湖”显露雏形。iPhone14现货开售当天,美团无人机仅耗时...
日期:10-03
宽带发展联盟发布《万兆宽带网络商业应用场景白皮书》助力我国万兆光网发展启航
通信世界网消息(CWW)2023年6月4日,在北京国家会议中心举办的第三十一届中国国际信息通信展览会-未来城市千兆光网发展论坛上,中国信息通信研究院总工程师、宽带发展联盟副秘书长...
日期:06-05
2023微信公开课PRO:微信搜一搜月活跃用户达8亿
凤凰网科技讯 1月10日消息,2023微信公开课PRO线上开讲。微信搜一搜团队披露,2022年微信搜一搜月活跃用户已达8亿,搜索量较上一年同比增长54%,其中内容资讯类需求较上一年同比增...
日期:01-10
Android 2.3“姜饼”占有率已经超越2.2版
  最新统计数据表明,Google Android 2.3-2.3.7 Gingerbread已经超越了Android 2.2 Froyo,目前占比44.4%成为被使用得最多的Android版本,而后者为40.7%,依然占有重要地位。Gin...
日期:07-24
押注直播电商,品牌靠什么实现确定性增长?「直播电商价值」
声明:本文来自于微信公众号 市值榜(ID:shizhibang2021),作者|何玥阳,编辑|嘉辛,授权转载发布。在刚刚过去的双11,直播电商增长强劲,依然是电商最大的风口。星云数据显示,今年双11,全...
日期:11-16
微软新漏洞_微软提供20万美元修复Windows的内存漏洞
8月5日消息,据国外媒体报道,微软设立了一项200,000美元的奖金,这项奖金将办法给能够解决目前Windows操作系统中存在的内存漏洞的人。 目前,微软的“蓝帽奖”(BlueHatPrize)奖项...
日期:07-22
Ambient Diffusion:从受损数据中学习干净分布的创新方法「损失次数的分布」
8月1日 消息:Ambient Diffusion 是一种能够从损坏数据中学习干净分布的创新方法,为科学应用中无法获得未损坏样本的问题提供了解决方案。该框架不仅适用于学习分布,还可以训练...
日期:08-02
押金彻底凉凉?ofo小黄车已无法登陆「ofo小黄车押金是不是退不了了」
2月21日消息,近日,据网友反映,ofo小黄车无法登陆,客户端已经无法接收到短信验证码。经测试,ofo小黄车苹果和安卓客户端已无法登陆,也收不到短信验证码。使用ofo小程序测试,则提示网...
日期:03-01
将推职业社交网站经纬网:千橡深化SNS布局
  旗下拥有人人网的千橡继续在SNS方面深入布局,其推出的职业社交网站经纬网jingwei.com已经在低调测试中。   根据经纬网的介绍,其是一个实名制的社交网络,“立志于让每一...
日期:07-26
中国兴起网聚族:热衷和陌生人线下交朋友
  一群此前从未谋面的陌生人,通过网络联系,相约在一起吃年夜饭,热闹地聊天,互留电话,到KTV一起唱歌。这是现在活跃在城市里的“网聚族”,在这样的聚会中,交朋友变得非常简单和直...
日期:07-26
鸿合电子白板「鸿合电子白板有摄像头吗」
本文目录一览: 1、如何定位?2、启动不了?3、鸿合白板显示无信号?4、鸿合白板如何连接wifi?5、有没有摄像头看到全班?6、鸿合白板和希沃的区别?7、学校的电子白班如何关闭触...
日期:06-02
换种方式来感受2017 CES Asia上的汽车科技「CES:汽车制造商纷纷展示车载娱乐和游戏」
1月6日消息,大众、本田和现代等汽车制造商在2023年度国际消费电子展(CES)上相继推出全新的车载娱乐系统,其中不乏车内视频游戏功能。埃隆·马斯克(Elon Musk )起初向特斯拉车主们...
日期:01-07
15款苹果雷电接口「iPhone 15 Pro支持雷电3 不止换接口」
目前基本确定,iPhone 15系列四款机型都将配备USB-C接口,其中iPhone 15标准版支持USB 2.0,Pro版支持雷电3。利用雷电3的优势,苹果为iPhone 15 Pro和15 Pro Max开发了一项新功能,在...
日期:04-28
毕马威计划「毕马威最新报告:新计算时代亟需“普慧”算力」
通信世界网消息(CWW)7月7日,在2023世界人工智能大会期间,毕马威与联想集团联合发布《普慧算力开启新计算时代》报告(以下简称报告)。报告指出,未来算力发展趋势将具备两大特征:数字...
日期:07-08
冬奥冠军武大靖携手作业帮:为每一分,付出100分
  2月4日,北京冬奥会倒计时一周年之际,全球用户规模最大的在线教育公司作业帮宣布中国短道速滑队队长、冬奥冠军武大靖为其“冠军代言人”,双方将携手共同陪伴中国青少年...
日期:07-10
工信部《频率划分规定》新版出炉,蕴含6G大动作「工信部5g频段」
通信世界网消息(CWW)6月27日,工业和信息化部发布新版《中华人民共和国无线电频率划分规定》(工业和信息化部令第62号,以下简称《划分规定》),主要根据《中华人民共和国无线电管理...
日期:07-04
华为P60渲染图曝光:主摄再升级「华为p60渲染图曝光:主摄再升级怎么设置」
华为P60迎来新动态,新的爆料带来了P60的正面和背面效果图,除了屏占比大幅提升之外,背部的摄像模组也发生了变化,猜测会有大幅升级。从曝光的效果图来看,华为P60系列依然是万象双...
日期:12-04