您的位置:首页 > 互联网

向ChatGPT提特殊问题,可提取原始训练数据!

发布时间:2023-12-12 13:48:38  来源:互联网     背景:

声明:本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区,授权转载发布。

随着ChatGPT等模型的参数越来越大,预训练数据也呈指数级增长。谷歌DeepMind、华盛顿大学、康奈尔大学等研究人员发现,无论是开源还是闭源模型,在训练过程中皆能记住一定数量的原始训练数据样本。

如果使用特定的恶意攻击,便能轻松地从模型中提取海量训练数据,同时会威胁到数据所有者的隐私。

研究人员使用的攻击方法也非常简单,就是让ChatGPT(GPT-3.5)无限重复某个词语,例如,无限重复“公司”二字。

最初ChatGPT会一直重复这个词语,达到一定数量时,居然神奇的出现某公司的地址、历史、营业范围等其他原始数据。

特斯拉降价拉动门店订单暴增

而这些数据并非神经元重组的文本内容,研究人员已经分享了该成功案例。

论文地址:https://arxiv.org/abs/2311.17035

攻击成功案例展示地址:https://chat.openai.com/share/456d092b-fb4e-4979-bea1-76d8d904031f

三星猎户座1080芯片怎么样

一开始ChatGPT正常回答

一定数量后,开始吐出原始训练数据

realme和三星

攻击方法与原理

研究人员使用了一种“可提取记忆”的攻击技术概念,这区别于训练数据的“可发现记忆”。

“可发现记忆”是攻击者知道训练数据集,可以直接从中提取数据;而“可提取记念”是攻击者无从得知训练数据,需通过模型本身得到数据。

简单来说,攻击者没有数据训练集的直接访问权限,只能通过解读和分析AI模型的“行为”或“反应”来推断出档案库中可能存储了哪些信息。就像是一位偷宝箱的人,他没有钥匙,只能从宝箱形状来判断里面装了哪些财宝。

研究人员使用了随机提示、尾递归索引检测、重复引发发散等多种攻击方法,终于通过重复引发发散发现了数据安全漏洞。

1)随机提示攻击

研究人员从维基百科等开源文本中采样5个词组作为提示,输入到语言模型中,要求它基于提示继续生成文本。

通过这个随机提示,模型产生的一些文本可能就是训练数据集中的内容。

2)尾递归索引检测

为了高效检测生成文本是否源自训练数据集,研究人员构建了一个“尾递归索引”。

这个数据结构按字符串后缀排序存储所有训练数据集文本,支持快速的子字符串查询操作。通过这个索引可以检测提示是否产生训练数据。

3)重复引发发散

研究人员发现,反复以单个词汇提示语言模型,可以引发生成与训练数据完全一致的长文本。这是因为模型难以持续重复一个词汇,从而“发散”到其他文本。

为了评估攻击效果,研究人员构建了一个9TB的辅助数据集AUXDATASET,包含公开的大型语言模型预训练数据集。基于这个数据集,他们能够机械化地验证生成的样本是否出现在训练数据中。

实验数据显示,即使不使用真实的训练数据作为提示,现有的提取攻击也能恢复大量记忆中的训练数据,远超过先前的估计。

小米mix fold相机参数

例如,研究人员从6B参数的GPT-Neo模型中提取出近1GB的训练数据。这证明可提取记忆的数量要比人们普遍认为的要大得多。

接着继续对9个不同的商业AI模型进行攻击。结果同样惊人,很多模型可以提取出GB量级的训练文本。例如,从LLaMA模型提取出2.9万个长度为50的记忆文本。

对ChatGPT进行特定提问

研究人员还专门分析了ChatGPT,因为它使用了数据安全对齐技术模拟真人对话,模型就不太容易泄露训练数据。

但是经过深度分析,研究人员还是找到了一个提示策略,可以让ChatGPT失去控制,然后像普通语言模型一样开始泄漏数据。该方法就是让模型无限重复回答一个词语。

通过该攻击方法,研究人员仅用了200美元便从ChatGPT提取出了1万个训练示例!如果花费更多的钱,可能会从ChatGPT提取大约1G的训练数据。

研究人员认为,ChatGPT的高容量存储和大量重复训练数据,会增加其对训练数据的记忆,即便是采用了严格的安全对齐技术也能出现数据泄漏的问题。

所以,如果预训练中使用了太多敏感数据,很可能会被其他人利用。

截至目前,ChatGPT已经修复了该漏洞,当你在提问重复某个词句的无限重复要求时,会提示“根据OpenAI的使用政策,我不能参与重复无意义内容的行为。”


返回网站首页

本文评论
龙芯2k1000架构「自主架构圆满了!龙芯2K2000流片成功:自研GPU、功耗约4W」
龙芯中科官方宣布,2022年12月中,龙芯2K2000通用型SoC芯片流片成功,并完成初步功能调试、性能测试,达到设计目标。目前,龙芯2K2000已全面展开解决方案调试,近期将推出试用。龙芯2K2...
日期:01-11
小米14pro值得买吗「小米14 Pro爆超级惊艳:长焦能力强悍」
小米集团魏旭透露,小米14 Pro已经敲定外观设计,比小米11 Ultra更加惊艳。谷歌支付服务五菱凯捷第三排乘坐体验据博主智慧皮卡丘称,小米14 Pro将配备潜望式长焦镜头,在影像方面进...
日期:04-25
德国中断与谷歌Analytics隐私问题谈判
  德国官方数据保护机构宣布,已经中断了与谷歌关于Analytics隐私问题的谈判,并警告称,使用Google Analytics工具的德国企业可能面临法律诉讼和罚款。谷歌免费向网站所有者提...
日期:07-25
技嘉 AORUS DAY上海站,超频决胜力顺利达成_技嘉官网超频软件
9月23日,上海,“AORUS DAY·超频决胜力”活动圆满结束。阴雨绵绵也挡不住大家的热情!众多科技硬件媒体、自媒体达人、超频玩家以及来自各地的技嘉AORUS粉丝齐聚一堂,共同参与这...
日期:09-26
美团大跌后腾讯辟谣清仓,今年已遭沈南鹏8次减持_美团股票新闻
作者:陆涵之;;责编:宁佳彦   8月16日,有消息称,腾讯控股(00700.HK)将出售美团(03690.HK)股票,对此腾讯集团市场与公关部总经理张军进行了辟谣。今日港股,包括美团在内的腾讯系股票均...
日期:08-20
苹果坐稳了 iPhone使用寿命延长?_iphone寿命一般多长
来源:中关村在线iphone 14pro与14promax的区别iPhone智能手机使用寿命延长趋势凸显全球知名市场研究机构CCS Insight最新报告显示,到2023年底,全球活跃的iPhone设备数量将达到1...
日期:10-12
“特斯拉强敌”就要来了!Lucid加快进度 计划进入中国市场_特斯拉 路特斯
快科技9月7日消息,日前,Lucid首席工程师Eric Bach接受采访时表示:该公司正在探索进入世界上最大的电动汽车市场中国,但是进入的时间表目前还没有确定。下载京东买菜一小时到达针...
日期:09-08
“异地恋接吻神器”引热议 发明人回应:不知谁生产的 自己很高兴
近日,一款名为异地恋接吻神器”的装置火了,相关话题#异地恋接吻神器你会买吗#还上了微博热搜。三星芯片发展有人直呼发明人是人才,也有人觉得无法接受。据了解,异地恋神器”的工...
日期:03-01
加快数字基础设施建设,湖北奋力打造全国数字经济发展高地_湖北省数字产业发展
通信世界网消息(CWW)当前,新一轮科技革命和产业变革加速演进,数字技术整深刻改变生产生活,以人工智能、云计算为代表的计算,和以5G为代表的联接领域数字基础设施建设作为实现创新...
日期:08-07
中秋国庆放假8天连上7天!专家:调休不如适当增加延长假期
9月26日消息,眼看国庆节假期就要到了,这个节骨眼上你的心是不是早都飞走了....根据官方公布的2023年中秋节、国庆节放假安排通知,2023年9月29日(星期五)至10月6日(星期五)放假调休,...
日期:09-26
《数据安全法》颁布,上上签电子签名保障企业数据安全_电子签名法规
  6月10日,《中华人民共和国数据安全法》(以下简称“数据安全法”)表决通过,自2021年9月1日起施行。   《数据安全法》为企业的数据安全管理提出了更高的要求。同时,它...
日期:10-21
药丸区域缩小!曝iPhone 16 Pro灵动岛面积将扩大
近日,howtoisolve曝光了一些iPhone 16 Pro的信息,该媒体表示,iPhone 16 Pro将拥有一个较小的药丸挖孔。当然,灵动岛不会消失,但灵动岛会有更多的空间来显示信息,因此由于曝光相机...
日期:01-16
中国取代日本成全球第一大汽车出口国!商务部发声_中国出口日本的汽车
中国汽车工业协会的统计数据显示,一季度,国内汽车企业出口99.4万辆,同比增长70%,超过日本的95.4万辆,同比增长6%,中国已正式取代日本,成为全球第一大汽车出口国。5月25日,在商务部例...
日期:05-28
p50麒麟9000价格「麒麟9000版华为P50 Pro上架京东:7288元!」
近日,搭载麒麟9000芯片的华为P50 Pro 5G手机在京东商城上架,这可是麒麟芯片啊~现店铺售价7288元,欲购从速,先到先得,现在下单还送无线充电器+有线充电套装+蓝牙耳机+三合一数据线...
日期:10-19
腾讯持股美团「万亿美团,大跌10%!腾讯真要减持吗?」
  文 | 唐燕飞 温婷  大股东减持的传闻引发各界猜测,在二级市场掀起波澜。  8月16日,美团股价午后持续走低,跌幅一度扩大至10%。截至收盘,股价有所回升,跌幅为9.07%。  ...
日期:10-17
华为mate30pro参数「华为mate30pro参数配置详细对比」
华为Mate 30 Pro于2019年9月19日在德国发布,是华为公司的新一代旗舰智能手机。该手机首次采用了AI芯片和麒麟990处理器,引领了智能手机的技术潮流。机身设计方面,Mate 30 Pro采...
日期:05-29
淘宝全球购双11将聚焦短视频和直播内容化「淘宝双十一节目」
9月29日消息,淘宝直播发文称,淘宝全球购近日举办商家主播买手大会,面向消费者、商家买手、主播/机构等群体宣讲淘宝全球购的双11玩法和重点利好政策,同步解读了未来半年的重点策...
日期:10-01
乐视要做下一个新东方?不依赖版权和收租,要推新机还考虑带货直播
  记者/秦艺逍  新东方直播爆红之后,乐视也想进军直播领域了。  “员工可以为自己公司代言,乐视为什么不可以?”9月8日,乐视负责人品牌夏晓艳在媒体沟通会上表示,乐视的员...
日期:09-10
华为sonic_华为松山湖
华为是全球知名的科技公司,不仅在手机、电脑等领域拥有极高的市场占有率,也在网络设备领域居领先地位。作为华为网络设备的一款产品,华为Sonic自面世以来备受追捧,下面将为大家...
日期:05-31
AMD 发布锐龙 7000 系列处理器:16 核 R9 7950X 最高 5.7GHz「锐龙5000系列R7处理器」
IT之家 8 月 30 日消息,今天,AMD 正式发布了锐龙 7000 系列处理器,包括 R5 7600X 到 R9 7950X 四款。京东七夕节手机有活动吗美团股票港股如上图所示,AMD 锐龙 7000 系列处理器...
日期:09-27