您的位置:首页 > 互联网

ChatGPT、Llama-2等大模型,能推算出你的隐私数据!

发布时间:2023-10-31 14:56:19  来源:互联网     背景:

声明:本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区,授权转载发布。

ChatGPT等大语言模型的推理能力有多强大?通过你发过的帖子或部分隐私数据,就能推算出你的住址、年龄、性别、职业、收入等隐私数据。

瑞士联邦理工学院通过搜集并手工标注了包含520个Reddit(知名论坛)用户的个人资料真实数据集PersonalReddit,包含年龄、教育程度、性别、职业、婚姻状况、居住地、出生地和收入等隐私数据。

然后,研究人员使用了GPT-4、Claude-2、Llama-2等9种主流大语言模型,对PersonalReddit数据集进行特定的提问和隐私数据推理。

结果显示,这些模型可以达到85%的top-1和95.8%的top-3正确率, 仅通过分析用户的文字内容,就能自动推断出隐藏在文本中的多种真实隐私数据。

oled显示器比电视贵

论文地址:https://arxiv.org/abs/2310.07298

研究人员还指出,在美国,仅需要地点、性别和出生日期等少量属性,就可以确定一半人口的确切身份。

这意味着,如果非法人员获取了某人在网络上发过的帖子或部分个人信息,利用大语言模型对其进行推理,可以轻松获取其日常爱好、作息习惯、工作职业、家庭住址范围等敏感隐私数据。

构建PersonalReddit数据集

研究人员构建了一个真实的Reddit用户个人属性数据集PersonalReddit。该数据集包含520个Reddit用户的个人简介,总计5814条评论。评论内容涵盖2012年到2016年期间。

个人属性包括用户的年龄、教育程度、性别、职业、婚姻状况、居住地、出生地和收入等8类。研究人员通过手工标注每一个用户简介,来获得准确的属性标签作为检验模型推理效果的真实数据。

数据集构建遵循以下两个关键原则:

1)评论内容须真实反映网上使用语言的特点。由于用户主要是通过在线平台与语言模型交互,网上语料具有代表性和普适性。

2)个人属性种类需不同种类,以反映不同隐私保护法规的要求。现有数据集通常只包含1-2类属性,而研究需要评估模型推断更广泛的个人信息的能力。

小米redmi平板测评

此外,研究人员还邀请标注人员为每个属性打分,表示标注难易程度及标注人员的确信程度。难易程度从1(非常简单)到5(非常困难)。如果属性信息无法直接从文本中获取,允许标注人员使用传统搜索引擎进行查验。

对抗交互

考虑到越来越多的语言聊天机器人应用,研究人员还构建了一个对抗对话的场景来模拟实际交互。

开发了一个恶意的大语言模型驱动的聊天机器人,表面作用是作为一个乐于助人的旅行助手,而隐藏任务则是试图套取用户的个人信息如居住地、年龄和性别。

在模拟对话中,聊天机器人能够通过似乎无害的问题来引导用户透露相关线索,在多轮交互后准确推断出其个人隐私数据,验证了这种对抗方式的可行性。

测试数据

研究人员选了9种主流大语言模型进行测试,包括GPT-4、Claude-2、Llama-2等。对每一个用户的所有评论内容,以特定的提示格式进行封装,输入到不同的语言模型中,要求模型输出对该用户的各项属性的推测。

然后,将模型的推测结果与人工标注的真实数据进行比较,得到各个模型的属性推断准确率。

实验结果显示,GPT-4的整体top-1准确率达到84.6%,top-3准确率达到95.1%,几乎匹敌专业人工标注的效果,但成本只有人工标注的1%左右。

rtx 3090 历史价格

不同模型之间也存在明显的规模效应,参数数量越多的模型效果越好。这证明了当前领先的语言模型已经获得了极强的从文本中推断个人信息的能力。

保护措施评估

研究人员还从客户端和服务端两方面,评估了当前的隐私数据的保护措施。在客户端,他们测试了业内领先的文本匿名化工具进行的文本处理。

结果显示,即使删除了大多数个人信息,GPT-4依然可以利用剩余的语言特征准确推断出包括地点和年龄在内的隐私数据。

从服务端来看,现有商用模型并没有针对隐私泄露进行对齐优化,目前的对策仍无法有效防范语言模型的推理。

小米我的智能设备

该研究一方面展示了GPT-4等大语言模型超强的推理能力,另一方面,呼吁对大语言模型隐私影响的关注不要仅限于训练数据记忆方面,需要更广泛的保护措施,以减轻推理带来的隐私泄露风险。


返回网站首页

本文评论
巨型马蜂窝有无价值「空置一年 居民家里惊现一米多巨型马蜂窝 让人头皮发麻」
8月22日消息,近日重庆一居民家中发现一个1米多长的马蜂窝,引发网友围观。据报道,这个房子空置一年,厨房有一巨型蜂巢,一米多长,蜂窝里不时有马蜂飞出,吓得房主赶紧拨打119求助。当...
日期:08-22
“社牛”大学生偶遇当场投简历!周鸿祎回应:第一反应就是留电话
快科技11月8日消息,2023年世界互联网大会乌镇峰会今日在浙江乌镇开幕,众多互联网大佬参加此次峰会。今日,#大学生偶遇周鸿祎当场投简历#话题登上微博热搜,引来众网友围观。360集...
日期:11-09
华为mate pad pro天生会画宣传片“天生会画”数字创作大赛进入收官阶段 用华为MatePad,Pro描绘新年愿景
来源:中关村在线在时代的变迁中,曾经的人文风貌逐渐被高楼大厦所替代,繁星点点的天空也被五彩斑斓的街景灯光覆盖。为了唤起人们对城市人文风貌的情感记忆,华为发起了2023“天生...
日期:01-25
小米年货节终极战报出炉:全渠道支付金额破178亿!「小米双11支付金额超61亿」
今晚,小米公司发布了小米年货节”旗舰的终极战报:截止1月31日24:00,全渠道累计支付金额突破178亿元。马斯克 美国政府这其中包含小米之家、小米商城、小米有品、京东、天猫、电...
日期:02-02
三星Galaxy S23 FE发布 售价599美元起_三星s20fe发布价格
10月4日 消息:三星今天在印度发布了全新的Galaxy S23FE智能手机,这款手机搭载了先进的4nm制程的骁龙8Gen1和Exynos2200处理器。骁龙8Gen1版本主要针对美国市场,而Exynos2200版...
日期:10-04
苹果发布2023财年第三季度财报:净利润198.81亿美元 同比增长2.3%_苹果第三财季业绩
8月4日 消息:苹果公司发布了2023财年第三季度财报,总净营收为817.97亿美元,同比下降1.4%;净利润为198.81亿美元,同比增长2.3%。每股摊薄收益为1.26美元,高于分析师预期的1.19美...
日期:08-04
微软公司收购诺基亚_微软将向诺基亚支付10亿美元推广研发费用
  据华尔街日报中文网报道,据消息人士透露,微软将向诺基亚公司支付逾10亿美元,以推广以及开发基于Windows操作系统的智能手机。   此消息人士表示,诺基亚需要为每一部Windo...
日期:07-26
苹果大陆零部件占2%,小米华为国产化率提升_华为小米国产化率对比
此前根据日经的报道,按成本计算,中国大陆零部件在iPhone15中的占比已经萎缩到2%。聚焦国内,除了华为之外,小米也在强化国产化率。小米14目前除了没有国产处理器,国产零部件非常高...
日期:11-10
开源鸿蒙4.1测试版本发布:开始提供API Level 11接口_开源鸿蒙3.0
快科技2024年1月1日消息,近日,开放原子开源基金会在Gitee上,发布了开源鸿蒙OpenHarmony 4.1 Beta1版本代码,该版本开始提供首批API Level 11接口。据介绍,OpenHarmony 4.1 Beta1...
日期:01-01
独立智能机芯!华为Watch GT Cyber今天发:可换主题手表「华为手表定制」
11月2日晚,华为将举行Pocket S及全场景新品发布会,除手机外,发布会还将推出华为Watch GT Cyber智能手表、全新MateStation X一体机等诸多新品。据经销商看山的叔叔”消息,华为Wa...
日期:11-07
中国移动王晓云:面向数据要素融通的未来网络思考与实践
2023/5/25 16:15 中国移动王晓云:面向数据要素融通的未来网络思考与实践   近日,以“科创引领,数算未来”为主题的第六届大数据科学与工程国际会议在贵州省贵阳市召开。期...
日期:05-25
问界m5什么时候上市「AITO全尺寸旗舰SUV问界M9开订:50-60万元」
近日,在nova 11系列及全场景新品发布会上,AITO问界M9作为压轴产品首次亮相,华为常务董事、终端BG CEO、智能汽车解决方案BU CEO余承东宣布:问界M9将于2023年第四季度正式发布。...
日期:04-19
小米13T/13T Pro还有“无徕卡版本”:基础规格不变
快科技10月11日消息,在9月份的时候,小米在欧洲推出了小米13T和小米13T Pro两款高端旗舰。不止是在欧洲市场,小米13T、13T Pro旗舰也在尼日利亚、智力等市场上架。网友发现,小米1...
日期:10-11
chromebook销量「Canalys:二季度Chromebook出货量微增,平板电脑表现不振」
通信世界网消息(CWW)2023年第二季度,全球平板电脑出货量延续上一季度的颓势,同比下滑11%至3100万台,这是自2020年第一季度以来的最低出货量。而Chromebook当季表现稳健,得益于教育...
日期:08-07
92岁“股神”巴菲特持续加仓日本股票,第58届伯克希尔股东大会来了
92岁的巴菲特没有退休计划  第58届伯克希尔·哈撒韦股东大会将在当地时间5月6日召开,这是一年一度的美股投资者盛会。“股神”巴菲特和他的老搭档芒格将在3万名股东面前发表...
日期:09-30
彩色阅读如约而至 京东购海信彩墨屏阅读手机A5C更划算(海信彩墨屏阅读手机A5C)
  手机、电脑这类硬件产品让我们足不出户就能了解天下事,看新闻、看小说等等,享受各种乐趣,但是在工作日眼睛对着电脑,周末整天盯着手机,眼睛干涩、疲劳、充血等种种不适...
日期:06-19
惠普新款ENVY X360笔记本曝光_惠普envy13 x360
  (原标题::搭载R5 4500U,6核6线程)   AMD 推出了7nm 工艺的移动处理器Ryzen 4000系列,搭载新CPU的产品预计将从3月份开始发布。现在,了,搭载了AMD 的R5 4500U,6核6线程。  ...
日期:02-11
戴尔智能手机_戴尔智能手机怎么截屏
戴尔公司是一家已在全球范围内占据主导地位的电脑和相关产品制造商。自成立以来,戴尔的能力和创新一直位于全球最前沿。戴尔在智能手机市场上也有过一些尝试。虽然戴尔在智能...
日期:05-29
雷克沙推出CFexpress Type A存储卡:打造高效存储解决方案_雷克沙内存卡是哪个国家品牌
近日,雷克沙正式公布其CFexpressTypeA存储卡SILVER系列新品正式上市,这款全新的存储卡在保持雷克沙一贯的高品质和高性能的同时,又在技术和品质上进行了全面提升,为用户带来了全...
日期:11-08
淄博民宿1元售出五一房间:房东称绝不反悔「淄博最有名的民宿」
4月25日消息,据星视频报道,一位北京游客仅花1元钱在现今一房难求”的淄博订到了一间房,还是5月1号当天的。惊喜之后她立马怀疑是不是套路炒作,房东的回应却让她意外:这间房确实是...
日期:04-26