您的位置:首页 > 互联网

大模型时代的隐私保护与内容安全_模型大型

发布时间:2023-11-24 23:15:09  来源:互联网     背景:

通信世界网消息(CWW)随着2022年11月底OpenAI推出名为ChatGPT的人工智能对话聊天机器人,“大模型”概念迅速成为AI时代的热门话题,各厂商争相推出大模型产品。然而,在以ChatGPT为首的一众大模型被广泛应用的同时,用户不禁要问:人工智能大模型是否安全?

安全是大模型时代的最大挑战

大模型是一种包含数亿甚至数十亿训练参数的神经网络,它通过自监督或半监督学习的方式,利用大量数据进行训练。其中,大语言模型(LLM)是大模型中最常见的一种,能够执行情感分析、机器翻译、内容生成等各种自然语言处理(NLP)任务。

最早的大语言模型可以追溯到20世纪60年代第一个聊天机器人Eliza的创建。Eliza是一个简单的程序,它使用模式识别来模拟人类对话,将用户的输入转换为问题并根据一组预定义的规则生成响应。虽然Eliza远非完美,但它的出现标志着自然语言处理研究的开始和更复杂的大语言模型的发展。1997年,长短期记忆机器学习模型(LSTM)创建了更深层、更复杂的神经网络,能够处理更多的数据。2017年,Transformer模型的出现为此后的大模型产品奠定了基础,可以称之为“让ChatGPT踩在肩膀上的巨人”。强大的Transformer架构支持创建更大、更复杂的大语言模型,例如,OpenAI在2020年推出的GPT-3(Generative Pre-trained Transformer 3),被视为人工智能领域的一个里程碑。

生成式人工智能是一种使用大模型生成自然语言、图片、视频等内容的系统。这些大模型通过学习从互联网抓取的通用数据或由开发者上传的特定数据,能够生成风格和内容与训练数据相似的新内容。它们还可以根据在训练中获得的模式,生成摘要、翻译、预测文本等内容,知名的生成式大模型包括OpenAI的ChatGPT和谷歌的Bard。

随着大模型技术的迅速发展,相关企业都希望抓住这一机遇,利用大模型来开展业务赋能和创新。例如,一些提供餐饮推荐、外卖点单服务的商家会收集客户的基本资料、购买记录、行为习惯等信息,并将这些信息以数据的形式存储下来,通过人工智能大模型进行分析并加以利用,针对不同客户群体的消费习惯和购买行为进行特定商品推送。此外,ChatGPT还可以根据用户输入的主题和描述进行文案、图片等创作。

虽然这种颠覆性技术有广阔的应用前景,但它并非没有风险。因为人工智能大模型生成的内容并不能保证是真实的或适当的。随着大模型技术的迅速发展和广泛应用,人们每天都生活在大量数据和算法之中,这些技术的运用在提高人们生活质量的同时,也带来了前所未有的安全问题。

大模型技术可能会过度收集并违规使用个人信息数据,导致个人隐私数据面临泄露或被窃取的风险。此外,大模型算法本身也可能存在缺陷,导致其生成虚假新闻或不正当言论。因此,大模型引发的数据泄露和内容安全问题已经成为当前人们关注的焦点,也是人工智能领域面临的挑战之一。

大模型时代的隐私保护

随着大模型技术的快速发展和广泛应用,人们的生活发生了前所未有的变化。然而,在享受大模型技术带来的机会的同时,我们也不能忽视其弊端带来的负面影响。尤其是在当今这个缺乏隐私保护意识的时代,人们为了获取智能应用带来的便利而让渡部分权利,隐私数据泄露便不可避免。

最近几年,个人隐私数据受到侵犯的案件频繁发生。例如,Facebook未经允许将用户个人信息泄露给剑桥分析公司用于非法目的,同时利用网民的浏览习惯来精准投放广告;而剑桥大学心理测量学中心通过分析用户对哪些帖子和新闻进行阅读、点赞,得出每个人的性别、个性等信息。该事件表明,大模型技术的普及乃至滥用使其面临越来越多的隐私和安全威胁。

电商315活动大吗

西部数据硬盘一直闪

因此,社会各界逐渐加大了对隐私风险的分析和隐私保护的关注度,数据安全、模型安全、应用安全成为用户和服务提供商最关心的问题。为了保护个人隐私,相关各方应采取有效的措施,加强对大模型技术监管和个人隐私数据保护的措施,并加强对相关人员的培训和教育。只有这样,才能使人们更好地享受大模型技术带来的便利和机会,同时保护其个人隐私和安全不受侵害。

在数据采集、存储、处理、流通等阶段,都存在泄露的风险。

xbox11月10号新手柄

在数据采集方面,由于存在非法数据、买卖数据、暗网数据等不正当和未经授权的隐私数据收集行为,以致部分数据的获取实际上并没有取得用户的知情同意,很容易造成用户隐私数据泄露。

在数据存储方面,如果没有采取有效的技术手段进行安全防护,隐私数据很容易被攻击者通过黑客行为窃取。另一方面,由于对数据没有明确的隐私界定与标注,如果数据使用者无意中将涉及隐私的数据用于公开的大模型训练分析,个人隐私将在不经意间被泄露。

在数据处理方面,对于种类多、数据量大的数据集,数据的处理过程难以规范与监管,存在被攻击者破坏、拷贝等安全隐患。

在数据流通方面,由于一些人工智能企业会委托第三方公司实现海量数据的采集、标注、分析和算法优化,数据将不可避免地在供应链的各个主体之间形成复杂的交互流通链路,并因各主体数据安全能力的参差不齐而产生数据泄露或被滥用的风险。

除此之外,在全球数字经济发展不均衡的大背景下,大型科技巨头将人工智能的数据资源供给、数据分析能力、算法研发优化、产品设计应用等环节分散在不同的国家,数据跨境流动的场景也将对国家安全和个人信息保护造成不可控的风险。

大模型时代的内容安全

在ChatGPT的使用过程中,用户只需输入主题和描述,就能生成相应内容,这降低了网络犯罪的门槛,让即使完全不懂代码的人也能进行虚假信息、不适当信息的制造和传播。一些不法分子使用“AI换脸”技术,通过伪造视频和图片进行非法牟利,人脸信息属于个人敏感信息,被用于生物识别,关系到每个人的肖像权和财产安全。这种利用大模型进行“AI换脸”内容生成、技术滥用的行为,严重损害了社会公共利益和他人肖像权。此外,新型电信诈骗模式也呈现高发态势,不法分子使用大模型创作“诈骗剧本”,并利用AI创作的虚假视频、音频进行诈骗,对个人财产造成了严重损害。

人工智能模型依赖于大量数据,大模型虽然可以生成与训练数据风格相似的内容,但本身不具备辨别数据真伪的能力,因此容易受到虚假训练数据的影响。除此之外,数据的污染和偏差都会降低模型的准确性和可靠性。如果数据质量出现问题,如数据内容失真、数据标注错误、数据多样性有限等,那么大模型生成内容的可信度将无法保证,可能导致预测结果出现偏差,甚至导致种族歧视或性别歧视等内容的生成。

此外,一些不法分子在训练数据集中添加“污染数据”,导致训练出来的大模型在决策时出现偏差,从而影响模型的完整性和可用性。近年来,“数据投毒”问题已导致多个世界知名公司遭受重大负面影响,并产生了十分严重的后果。例如,美国亚马逊公司的Alexa智能音箱“学习”了网络不良信息,发生了引导用户自杀的恶意行为。这足以看出,训练数据的质量已成为阻碍人工智能发展的重大问题。

除了生成恶意内容的风险外,大模型在推理过程中产生的信息还可能间接暴露用户隐私。一方面,在深度挖掘和分析数据时,可能会挖掘出用户的个人隐私信息,并对其进行一系列分析和应用,从而间接暴露数据中隐藏的个人隐私。另一方面,在对去标识化的个人信息、行为模式进行融合及关联分析时,可能会推理出与个人隐私相关的信息,如政治倾向、财务状况等。

此外,一些不法分子采用模型逆向攻击方式,还原训练数据以获取用户隐私信息。攻击者可以在没有训练数据的情况下,通过不断调整模型的输入数据,最终获得与训练集相似的数据。这种攻击如果用于人脸识别、指纹识别等生物信息识别系统,可能导致用户生物识别信息的泄露。例如,攻击者可以随机构建一张图片,人脸识别模型会给出用户名和置信度,结合置信度不断调整图片,最终有可能恢复出训练集中的人脸信息。

大模型时代的安全保护

针对大模型的隐私数据泄露和内容安全问题,必须加强监管和技术保障,确保大模型的安全性和可靠性。业界可以从以下三个方面开展相关工作:管控手段、攻防技术、隐私保护与检测平台。

大模型时代的隐私保护与内容安全的关系

在管控手段方面,管理者可以在大模型的开发阶段,根据预设的规则策略制定权限控制机制,限制用户访问资源的权限,以保护系统安全和数据完整性。这样可以确保人工智能数据模型的隐私安全。

由于智能化程度越高的人工智能应用,数据隐私泄露的风险越高,因此可以根据人工智能应用的场景和功能对其进行分类分级,并制定差异化的人工智能隐私保护机制。例如,针对初级的基于人工智能技术的数据分析,可以按权限申请数据使用和共享,保证数据可信共享。针对智能化程度更高的生成式人工智能应用,可采用溯源的解决方案,对生成的图片、视频等内容进行标识,若发现违法生成内容应及时采取处置措施。这种精细化、分级化的管控手段有助于降低系统隐私泄露带来的负面影响。

在攻防技术方面,研究团队需要开发新的防御技术并研究攻击方法以应对新型的隐私泄露威胁。例如,可以使用深度学习算法检测模型中的恶意内容,或者使用加密技术保护数据的隐私。同时,研究团队也需要开发新的攻击技术以发现模型中的漏洞和弱点,从而及时修复并更新模型。

针对大模型训练和推理阶段所面临的隐私安全风险,研究者根据不同的攻击类型提出了相应的防御措施。对于“数据投毒”攻击,防御措施主要包括采用鲁棒性机器学习方法和数据清洗技术,以改变正常训练数据的分布。对于成员推理攻击,研究者发现可以通过在模型中添加Dropout层、正则项或使用model stacking减少这种攻击。对于模型逆向攻击,一种常见的方式是利用差分隐私技术来保护数据隐私,也有研究者提出利用联邦学习建立虚拟共有模型进行多方共同训练,以降低本地训练数据泄露的风险。对于模型提取攻击,一种直接的方式是对模型参数或输出结果进行近似处理,也有研究者利用模型水印技术来保护模型数据的知识产权,降低模型被盗用的风险。对于对抗样本攻击,已经有多种防护手段,其中直接对抗训练是将对抗样本及正确标签重新输入到模型中进行重训练,梯度掩模通过隐藏梯度使基于梯度的对抗样本攻击失效,对抗样本检测即直接检测是否存在对抗样本。

另外,还有研究者提出了提示注入攻击防御方法和生成内容检测过滤防御方法,以预防大模型的提示攻击威胁和生成内容隐私泄露。对于提示注入攻击防御,一种简单的策略是将防御策略添加到指令中,通过增加指令的鲁棒性来强制执行期望的行为。常用的技术有调整提示位置、使用特殊符号标识等。同时,另有研究者提出构建提示检测器对提示进行检测、分类或过滤,以防止敏感和有害的提示输入。目前,OpenAI的ChatGPT、微软的NewBing等都采用了这种防御策略。

在隐私保护与检测平台方面,应建立大规模的隐私保护和数据安全检测平台,对所有的人工智能应用进行全面的隐私和安全检测。该平台应能够自动分析人工智能应用的数据来源、使用方式和处理过程,从而发现可能存在的隐私泄露风险。同时,该平台也应能够提供实时的监控和报警服务,及时发现并处理任何可能导致隐私泄露的事件。

为了保护数据的隐私和安全,多个隐私保护人工智能平台被陆续推出,这些平台基于安全多方计算、联邦学习、匿踪查询、密码学和分布式等技术,实现了数据的安全共享。其中,某隐私保护机器学习平台利用安全多方计算和联邦学习打通“数据孤岛”,将计算环节移至数据端,实现了“数据可用不可见”,解决了多家机构在数据合作中可能存在的数据安全风险和隐私泄露问题。另一个面向政府内部及外部数据需求方的隐私计算平台则提供安全可信的隐私计算服务,以推动政府的数据生态体系建设。该平台支持多方计算和联邦学习融合应用模式,并通过联邦区块链保证过程的不可篡改和可溯源性,实现了“数据可用不可见”和“计算可信可链接”,帮助政府解决数据开放和隐私保护难以两全的问题。

最近,联邦学习隐私计算开源平台FATE发布了联邦大模型FATE-LLM。联邦大模型是指利用联邦学习的方法对预训练大语言模型进行微调和优化,以适应不同的应用场景和任务。联邦大模型可以突破数据和算力的壁垒,实现多方数据的融合和增值,同时保护数据隐私和安全。此外,针对大模型生成内容的监测,业内也在积极研究相关的安全监测工具,以满足用户对可信赖人工智能系统的需求,并促进全球人工智能监管框架的互联互通。

最后,笔者在此呼吁大模型的开发厂商、安全厂商等企业共同构建大模型的安全生态环境,建立健全的管理体系。通过多层保护的方式,保障用户的隐私数据安全以及生成内容的安全。通过加强合作和交流,共同推动人工智能大模型技术的健康、稳定和可持续发展。


返回网站首页

本文评论
“绿电”与“绿氢”灵活转换,我国首次实现固态氢能发电并网
3 月 26 日消息,氢能被全球公认是未来极具潜力的清洁能源,但因为氢的质量太轻,密度只有空气的 1/14,如何安全、高效地储存和运输,成为制约氢能大规模应用的瓶颈,而储氢材料和载体...
日期:10-05
华为nova系列的5g手机「中国移动 5G 消息终端新增 Hi nova 10,该手机还未发布」
IT之家 8 月 22 日消息,中国移动官方发布了最新支持 5G 消息终端型号,截至 8 月 17 日,支持 UP2.4 的终端机型共 137 款,本次新增 Hi nova 10 手一款。除了三星 (S20 系列起)、...
日期:09-20
马化腾、刘炽平发全员信 腾讯九月重要活动正式官宣
凤凰网科技讯 8月31日,腾讯总办向全体员工发布了“99公益日”年度全员信,宣布从9月1日至9月10日,为期10天的“99公益日”正式开始。这是腾讯总办连续第九年为99公益日发布全员...
日期:08-31
爱奇艺举办《青春有你2》云发布会 109位训练生与用户零接触实现全新云互动
  2月26日,爱奇艺为用户举办了一场特殊的《青春有你2》发布会,之所以称为特殊,是因为与以往和众多用户线下面对面的交流形式不同,这场发布会全程采用了“云制作”、“零接触...
日期:06-07
中国广电内部放号测试「案例征集 | 中国广电放号一周年·优秀地方广电运营案例征集」
通信世界网消息(CWW)自中国广电获得5G牌照已有四年时间,四年来,中国广电紧抓5G发展机遇,2020年10月12日,中国广电网络股份有限公司正式揭牌成立,成为国内第四大运营商。时隔两年,中...
日期:06-14
抖音网红自曝直播带货收入:一天卖2.3个亿,净赚300多万(抖音主播带货利润)
记者/陆柯言 佘晓晨   一场直播带货到底能赚多少钱?一位拥有近千万粉丝的抖音主播的回答是:单日带货2.3亿,净赚300万。   8月3日,抖音主播彩虹夫妇发布了一条视频,回应了网友...
日期:08-05
5G即将到来 大数据时代聚云位智自主研发技术制胜未来_大数据5G
  当前,大数据创新应用遍地开花,数据开放共享、流通融合程度不断加深,“数据为王”时代已经全面来临。而随着5G的即将到来,世界各国政府和巨头科技公司纷纷布局5G产业版...
日期:09-24
抖音潮爸刘教授真名「对话潮爸刘教授:GMV翻倍单场爆卖6000万,品类专场直播新突破」
声明:本文来自于微信公众号 蝉妈妈(ID:cmmshuju),作者:蝉妈妈,授权转载发布。随着抖音电商的快速发展,越来越多的内容创作者进入了直播带货的赛道,他们在持续输出优质视频内容的同...
日期:06-27
支付宝集五福活动开启:新增全家福,奖品金额最高48888元_支付宝集五福开奖啦
  1月13日消息 2020年支付宝集五福活动现已正式开启,时间为从1月13日(腊月十九)开始到1月24日(除夕)。今年的支付宝集五福活动继承了此前的五福活动玩法,包括AR扫福字、蚂...
日期:09-17
为什么生成式 AI 的创始人之一要全身心投入 Web3?
8月24日 消息:利亚·波洛苏欣 (Illia Polosukhin) 是2017年AI领域具有里程碑意义的论文《Attention is All you Need》的团队成员之一,共同创造了Transformer模型,为ChatGPT等生...
日期:08-24
罕见的骁龙8 Gen2小屏旗舰!小米13 12 256G版到手只要3799元「小米八骁龙多少」
快科技8月10日消息,小米13登陆京东百亿补贴,12GB 256GB到手价是3799元,在同档位极具竞争力。和其它骁龙8 Gen2机型不同,小米13是一款小屏旗舰,它搭载了6.36英寸的全面屏,屏幕边框...
日期:08-10
面对新能源,传统车厂选择「自杀式」降价
活下去最重要。作者 | 周永亮编辑| 靖宇进入 2023 年,传统汽车厂「搞」了个大事情。近日,一组关于「湖北史上最强购车优惠季开启」的宣传海报引发热议。据了解,进入 3 月,湖北省...
日期:03-10
LIPO技术加持 屏幕边框破纪录 「iPhone」-15 Pro正面颜值提高显著
据外媒9to5Mac最新爆料称:苹果iPhone 15系列将于9月13日发布,9月15日开始预售,9月22日发售,不出意外的话该系列将继续推出包含iPhone 15、iPhone 15 Plus、iPhone 15 Pro和iPhon...
日期:09-09
宁德时代发力电池生态:新公司业务电池租赁、换电、充电桩全囊括
凤凰网科技讯 2月23日消息,据天眼查App显示,近日,上海芯时代新能源科技有限公司成立,注册资本1亿人民币。图源 天眼查股东信息显示,该公司由上海永廉企业管理有限公司和宁德时代...
日期:02-25
适合Match可以给内容打分,快来试试你的创作实力有多强?
  视频轻松上传 生活中的好物即时分享   对于如今快节奏碎片化时间较多的人们来说,简平快的短视频是快速获取乐趣、消磨时间最便捷的方式之一。可大热的App内容模式、拍...
日期:07-14
3G移动互联催热实时视频 网络摄像机走入家庭
  9月19日消息,身在彼处,心随家行。工作之余或差旅在外时,通过手机可以实时查看家中的同步影像或调用过往录像,从而实现与家人随时随地保持沟通,远程照看家中老人或孩童;无人...
日期:07-23
「人生搜索引擎」登陆iPhone,黑镜成真了「搜索人生路」
声明:本文来自微信公众号“量子位”(ID:QbitAI),作者:西风,授权转载发布。接入大模型的手机智能助手,来了!APP名叫Rewind,背靠GPT-4,可以一键记录、搜索、回答用Safari浏览过的所有...
日期:07-31
梅赛德斯电动奔驰价格表「梅赛德斯-奔驰将推1200美元年费订阅服务 能让电动汽车加速快一点」
11月25日消息,据国外媒体报道,在汽车行业,以订阅服务的形式提供汽车功能是一种颇有争议的做法,梅赛德斯-奔驰就是一家尝试这种做法的汽车制造商。据外媒报道,梅赛德斯-奔驰即将推...
日期:11-27
5g比4g更费流量_相比5G的高速 人们或许更需要便宜的流量
  最近网上闹得沸沸扬扬的“4G限速”事件可以说是牵动了亿万用户的心,而随着该事件的热度逐渐开始降温,人们似乎开始选逐渐淡忘。或许在这个时候,我们也该沉浸下来去思考,这...
日期:01-18
微软更新Win11 22H2的CPU要求:正式支持13代酷睿/锐龙7000了「win11 8代cpu」
9月21日,微软发布了Windows 11 2022更新,也就是之前说的Win11 22H2年度更新,这是一年来Win11首个重磅更新,目前已经全网推送了。这次Win11 2022重新设计的开始”菜单、更快更准...
日期:10-27