您的位置:首页 > 互联网

大模型研发者是数据控制者么?——基于OpenAI的观察「dac模型」

发布时间:2023-04-26 15:31:55  来源:互联网     背景:

声明:本文来自于微信公众号 腾讯研究院(ID:cyberlawrc),作者:王融,授权转载发布。

引言:

以ChatGPT为代表的生成式人工智能技术正在以令人惊异的速度进化。随着商用化序幕拉开,相关隐私和个人信息保护等数据合规问题(以下简称数据合规)进入公众视野。但实际上,数据合规并不是AI行业面临的新问题。妥善解决隐私和数据安全,赢得用户信任,是任何一项应用取得成功的基本前提。相比于移动互联网、云计算、区块链、自动驾驶等技术,我们更关注新一代AI在数据合规中的独特问题。对于代表着新拐点、新范式的新一代AI,相关法律认定都还为时过早。

为此,腾讯研究院公众号将陆续推出《生成式AI——数据合规的变与不变》系列文章,以开放设问方式,探讨基于大语言模型AI生态的数据合规问题。讨论没有标准答案,更多提供观察视角。

本期观点摘要:

1. AI 行业生态仍在发展形成中,从目前浮现的商业形态看,生成式 AI 市场主体大致可以区分为三类:一是基础大模型研发者(如OpenAI, Deepmind),二是面向垂直行业的模型研发者(如Bloomberg,Aidoc),三是面向公众提供内容生成的服务提供者,如近期火爆的ChatGPT。

2.并非所有的市场主体都是数据合规法律框架下的义务主体,这需要根据业务场景、技术逻辑和法律规范来进一步确定:是数据控制者(data controller),数据处理者(data processor)抑或是其他?当主体身份重合时,也需要基于不同业务流程匹配合规义务。

3. 模型研发者,在模型训练阶段有可能并不认定为数据合规上的法律主体(data controller)。以OpenAI模型为例,其不以个人信息处理为目标,虽然在庞大的数据来源中不可避免存在个人信息,但绝大部分是公开信息,处理活动存在合法性基础。并且在从原始信息到训练数据的加工过程中,个人信息成分不断衰减。正如OpenAI所言:“我们希望了解世界,而不是了解个人。”

4.参考2014年欧盟“被遗忘权”案例中对于搜索引擎法律地位的分歧讨论,“搜索引擎”在对原始网页的处理过程中,并不应视为数据控制者。这对大模型训练阶段的法律定性具有启发意义。

正在浮现的市场主体

生成式 AI 行业生态正在快速发展形成中,规模庞大,主体呈现多样化。根据已浮现的商业形态,生成式 AI 市场主体目前大致可以区分为三类:

一是底层大模型研发者,包括OpenAI, Stability AI Google,Meta等,这些公司已发布各自的底层模型。所谓大模型,是指基于大量数据训练的、拥有巨量参数、展现涌现能力的模型。

基于模型开发的前景

二是面向B端各垂直领域\行业的模型研发者,例如[1]:

1. 医疗保健:Zebra Medical Vision ,Aidoc 等公司使用生成式 AI 为客户进行医学图像分析、诊断和治疗规划。

2. 制造业:通用电气等公司利用生成式人工智能优化生产流程、预测性维护和供应链管理。

3. 金融服务:Bloomberg发布的Terminal AI大模型。基于GPT-3架构,可以处理金融领域的专业文本数据,提供金融智能化的服务。

4. 零售:Stitch Fix 等公司使用生成式人工智能来实现个性化购物体验、库存管理和需求预测。

三是面向B端和C端个人用户提供生成式AI应用的服务商,例如:

1.内容生成:Jasper、ChatGPTGPT-3Creative Writing 等平台使用生成式 AI 来创建书面内容,包括营销文案、社交媒体帖子和其他书面材料。

2.语言翻译:谷歌翻译利用生成式人工智能在不同语言之间翻译文本。

3.图像和视频生成:Midjouney , DALL-E等平台使用生成式 AI 来创建合成图像和视频。

ipad pro m1 摄像头

对于以上主体,适用现有的隐私数据合规框架可从两个维度展开:一是区分业务场景(TO C/to B),以明确法律主体身份,即是否是个人信息保护法中的个人信息控制者,处理者抑或是其他角色;二是区分数据处理的流程环节,以明确法律主体所适配的数据合规义务。当主体身份重合时,更需要基于不同业务流程划分合规要求。以OPENAI为例,其既面向个人用户提供ChatGPT服务,也将基础大模型能力以API方式提供给专业开发者,在不同业务场景中,其所涉及的个人信息处理活动有着显著的不同,这对于法律角色和合规义务有着直接的影响。

基础大模型研发者是否是隐私数据合规框架下的data controller,是一个值得讨论的问题。

区别于媒体大众上关于AI数据合规的笼统讨论,从专业视角审视,AI底层大语言模型研发提供者,有可能并不认定为隐私数据合规上的法律主体——数据控制者(data controller)。

数据保护法上所界定的数据控制者是指:能够单独或与他人共同决定个人数据处理目的和方式的组织或个人,其在个人信息处理活动中发挥核心决策作用,并对该决策负责。欧盟数据保护机构也认同:“控制者是一个功能概念,旨在根据事实影响分配责任”。控制者必须确定应为哪些预期目的处理哪些数据。换言之,控制者知道他在处理有关个人数据方面所做的事情,知晓正在处理的是以语义方式“与已识别或可识别的自然人有关的信息”,而不仅仅是计算机代码。

但在大模型训练中,并非如此。以OpenAI模型训练为例,首先,其数据处理的主要目的是训练模型形成语言理解、预测、生成能力,甚至是举一反三的推理能力,而非处理个人信息目的。数据源的选取也主要是满足语言生成方向。OpenAI披露的数据源主要来自于公开信息。包括:维基百科、书籍、期刊、Reddit链接、Common Crawl和其他数据集。维基百科准确规范程度高,以说明性文字形式写成,并且跨越多种语言和领域,有助于提升模型的精确性;书籍由小说和非小说两大类组成,主要用于训练模型的故事讲述能力和反应能力;Reddit链接与Common Crawl则能较好覆盖网络公开信息,代表网络流行内容的风向标,对输出优质链接和后续文本数据具有指导作用[2]。从以上数据收集来看,其数据处理的主要目的是在于实现对语言表达的尽可能覆盖,以提升模型语言输出规范,无限靠近人的语言表述方式,而与个人信息处理目的相去较远。正如OpenAi声明:“我们希望我们的模型是了解世界,而不是了解个人。”[3]

其次,在海量原始数据资源中涉及的个人信息绝大部分是网络上的公开个人信息。从以上数据源可知,在维基百科、书籍、学术期刊中的数据中,个人信息本身占比较小,相对占比较多是通过Common Crawl获取的数据。Common Crawl 是一个非营利性组织,定期抓取互联网公开网页,并将这些数据存储在 Amazon S3上,使得任何人都可以免费访问和使用这些数据。目前,Common Crawl 的数据集已经成为自然语言处理、机器学习的重要数据来源之一,在促进全球研究和技术创新方面发挥了积极作用。

公开网络中不可避免会包含相当数量的个人信息,但其中大部分应属于已公开的个人信息,为实现个人信息利用与保护的平衡,包括我国在内的各国个人信息保护法对已公开的个人信息的利用均作出一定程度的豁免。例如:《个人信息保护法》第十三条第六项,将在合理的范围内处理个人自行公开或者其他已经合法公开的个人信息作为数据处理的合法性基础之一。类似的,欧盟欧盟《一般数据保护条例》(GDPR)把个人数据区分为一般个人数据与特殊(敏感)个人数据。依据该条例第9条第1款,原则上禁止对于数据主体的特殊(敏感)个人数据进行处理,但是同条也规定了例外情形,如果数据主体明显地公开了(manifestly made public)特殊个人数据的,则数据控制者也可对之进行处理。在美国法上,更是干脆将公开的个人信息排除在“个人信息”之外。例如:2018年《加利福尼亚消费者隐私法》(CCPA)与2020年《加利福尼亚隐私权法》(CPRA),均明确将“公开获取的信息”(Publicly AvailableInformation)排除在个人信息之外[4]。

最后,从原始信息到可供模型训练的数据的过程中,个人信息的成分是不断衰减的。从原始数据源到进入模型的训练数据集,数据规模往往会缩小很多。据称,GPT2021年的官方原始数据源是31亿个网页内容, 约320TB文字信息,但最终作为训练数据的是753GB。这是因为原始数据源通常包含大量的文本信息,但其中很大一部分并不适合作为模型的训练数据,需要经过清洗(去除无用的信息、错误数据和重复记录、噪音数据等)、预处理(将文本转化为数字向量)、划分增强(将数据区分为不同训练功能目)等一系列的加工过程,因此即使原始数据源中包含了部分个人信息,随着这一加工过程,个人信息成分也会不断衰减。此外,模型研发者为了进一步降低隐私和数据合规风险,在数据源中包含的个人信息(即使是公开个人信息)也会主动采取删除、匿名化、或者用合成数据替代等措施。

基于模型开发流程

如果参考2014欧盟“被遗忘权”判决中对于数据控制者的界定逻辑,模型研发者的法律身份问题将更值得商讨。

尽管在欧盟“被遗忘权”判决中,作为搜索引擎的谷歌最终被裁定为“数据控制者”,但在案件过程中的讨论争议依然可以为今天面临的新问题:如何确定大模型研发者的法律主体地位提供参考。

首先简单回顾下欧盟“被遗忘权”案来龙去脉:1998年,西班牙《先锋报》刊登了市民冈萨雷斯因无力偿还债务而遭拍卖房产的公告。2010年,冈萨雷斯发现,如果在谷歌搜索引擎输入他的名字,会出现指向《先锋报》关于其房产拍卖的网页链接。冈萨雷斯认为这些信息已经过去多年,希望谷歌能够删除该链接。该案一直打到欧洲法院,欧洲法院随后做出了轰动世界的“被遗忘权”判决:冈萨雷斯要求《先锋报》删除其个人信息的主张被驳回,因为这涉及干涉新闻自由;但谷歌作为搜索引擎服务商,被视为1995年《数据保护指令》界定的数据控制者,对其处理的第三方发布的带有个人数据的网页信息负有责任,依据该判例,欧洲居民可以向搜索引擎申请在搜索结果中删除有关个人的“不恰当的、不相关的、过时多余”(inadequate, irrelevant, excessive)的网页链接[5]。

判决发布后的争议持续到今天,谷歌在建立线上“被遗忘权”申诉平台后,接到大量申请要求删除相关新闻报道,这被观察者认为是一种新形式的网络审查。即使在欧盟内部,该判决很大程度上也在意料之外,因为在确立搜索引擎是否是欧盟数据保护法意义上的“数据控制者”(data controller)这一问题上,存在根本性分歧。

在“被遗忘权诉讼”最终判决之前,欧洲最高法院总法律顾问Niilo JÄÄSKINEN发布的法律意见书中,明确表达其不认同将搜索引擎视为数据控制者的主张[6]。他认为:在互联网背景下,应区分三种与个人数据处理相关的情况。(1)第一种是在互联网的任何网页(“源网页”)上发布个人数据元素。(2) 第二种情况是互联网搜索引擎提供的搜索结果将互联网用户引导至源网页,(3)第三种是互联网用户使用互联网搜索引擎时,他的一些个人数据,例如IP地址,关键词的处理。其中第(1)和(3)的场景中的数据控制者不存在争议,但就第(2)种情形,很有讨论的必要。

搜索引擎索引、缓存和显示信息的方式构成了对个人数据的“处理”,但这并不等于说它们构成了欧盟法意义下的“数据控制者”,并负担数据控制者的合规义务。仅提供信息定位工具的互联网搜索引擎不会对第三方网页上包含的个人数据行使控制权。除了作为统计事实之外,服务提供商不会‘意识到’个人数据的存在。对于搜索引擎而言,网页可能包含个人数据,但这种存在是随机的,包含个人数据的源网页与不包含此类数据的源网页之间并没有在搜索引擎上的技术操作上产生差异。搜索引擎服务商也无法在法律上或事实上针对与第三方服务器上托管的源网页上的个人数据履行有关的控制者义务......

这一逻辑对应当下大模型训练场景是何其形似!相比搜索引擎,大模型研发过程中,对于数据源中涉及的个人信息,更像是数据收集阶段不可避免的附属产品,而非研发者的初衷。相反,为降低隐私和个人信息风险,研发者还需投入大量精力,将其在数据源中删除或者匿名化。

遗憾的是,在“被遗忘权”案例中,欧洲法院并没有听取总法律顾问的意见。最高法认为搜索引擎在业务运营过程中,会根据用户偏好投放相关广告,这构成了对于个人信息的处理活动,应履行数据控制者义务。在今天看来,这一判断混淆了搜索引擎不同数据处理阶段与对应的合规义务,如果将这一逻辑适用于大语言模型研发者,会出现令人尴尬的局面。因为就广告投放而言,当前大模型的研发者,在其商业形态中恰恰排除了这一类模式。OPENAI明确表示:我们不使用数据来销售我们的服务、做广告或建立人们的档案。

正如总法律顾问在法律意见书中阐明:欧盟1995数据保护指令发布时,互联网刚刚起步,第一批搜索引擎开始出现,但没有人能预见它改变世界的程度。因此,对新技术现象给与法律上的解释时,必须考虑比例原则,有必要在个人数据保护、信息社会目标、市场主体以及互联网用户广泛的合法利益之间取得相称的平衡。

今天,我们再次面临又一个即将改变世界的技术创新。大模型是未来智能的基础设施,还是智能工具抑或它本身就是无处处不在的知识?尚未有确定性的答案。大模型研发者在数据合规上的身份属性,则更是一个值得讨论的问题。至少从大模型技术机理出发,将其认定为数据控制者的结论并没有充分的逻辑闭环。当然,这并不否认研发者从负责任的AI出发,在研发阶段对包括隐私在内的数据安全问题应予以高度关注,并尽可能将风险降到最低


返回网站首页

本文评论
国家邮政局:2020年全国快递业务量已超500亿件_国家邮政局发布的2017中国快递领域
9月10日消息,据国家邮政局邮政业安全监管信息系统实时监测数据显示,2020年我国第500亿件快件诞生。仅用时8个多月就完成500亿件快递业务量,不仅显现了我国快递发展的蓬勃活力,也...
日期:08-01
男子在鱼疗池睡着“生吞”小鱼 网友:鱼生从未体验的味道「鱼疗池里的鱼」
相信不少人都体验过在鱼疗池双脚被啃”的惬意,但在鱼疗池睡着生吞”小鱼的,这还是头一位。近日,广东一女子拍下自己爸爸在鱼疗店睡着的视频,期间还有小鱼跑到他嘴里。有网友调侃...
日期:01-27
支付宝APP首页新增直播入口 点击即可进入生活号直播间「支付宝直播间怎么进入」
9月28日 消息:近日,支付宝APP首页新增了直播入口,用户点击即可进入生活号直播间,向下滑动可观看其他商家直播。除首页外,用户还可以通过支付宝生活频道、消费券频道、地下室等其...
日期:09-29
顺风车、小视频,全民Pick春节返乡赚外快正确姿势(顺风车赚钱)
  春节将至,已被工作掏空灵魂的Michael和Sofia,即将告别高端写字楼生活,重返村草二狗和村花小芳的身份。然而,生活并没有给他们喘息的余地,这些刚经历“账单式小康”风波,尚未...
日期:03-17
赶大集、吃大席,短视频上演“回家的诱惑”「农村大席抢菜视频」
声明:本文来自于微信公众号新榜(ID:newrankcn),作者:云飞扬1993,授权转载发布。“今天挑战100块钱,在山东大集上吃顿海鲜大餐。”5块钱一条的小海参,12块钱两个的鲜鲍鱼,45块钱一斤...
日期:01-09
云天励飞首席科学家王孝宇:中国将开启新基建的黄金时代
  8月7日-9日,由中国计算机学会 CCF 主办,雷锋网和香港中文大学(深圳)联合承办,鹏城实验室和深圳市人工智能与机器人研究院协办的CCF-GAIR在深圳举办。   云天励飞首席科...
日期:07-15
约 500 元人民币在暗网就能买到银行账户,甚至还可以贷款 ...
  据 Digital Shadows 网络安全研究人员称,包括银行账户和网络管理员账户在内的逾 150 亿条各类账户信息在暗网上 “待价而沽”,其中有些信息甚至可供免费访问。   银行...
日期:07-14
苹果AR头显春季发:原型机在测试了!
此前爆料将于今年发布的苹果AR头显迎来更进一步的消息,据马克·古尔曼报道的消息,苹果公司计划在今年春季6月的世界开发者大会(WWDC)之前公布其首款AR头显。比亚迪方向盘解锁...
日期:01-11
班级群被骗取收费报警能追回吗「骗子混入班级群“收费”该如何防范遏制」
  海凝  开学季,师生在为进入新学期忙碌,骗子也“开工”了,浙江台州、嘉兴、宁波、义乌多地警方近日发布紧急预警,提醒家长提防骗子混进班级群,冒充老师以收取资料费、报名费...
日期:09-01
雅虎手中的阿里巴巴股权最新消息_传阿里向淡马锡融资回购雅虎所持股票
  10月10日上午消息,据知情人士透露,阿里巴巴集团已经与新加坡国有投资公司淡马锡控股展开谈判,希望通过融资回购雅虎所持的40%阿里巴巴集团股票。   知情人士表示,淡马锡...
日期:07-23
马斯克说自己被骗了 推特:胡扯(马斯克推特被盗)
讯 北京时间8月5日消息,马斯克在提交给特拉华州法院的文件中说,他被骗才签下与推特的收购协议,推特驳斥了马斯克的说法,说马斯克的话不可信,与事实不符。马斯克在一份反诉文件中...
日期:08-06
京东旗下网银在线被罚2943万,利用区块链能帮助躲避外汇管制?
《京东旗下网银在线被罚2943万,利用区块链能帮助躲避外汇管制?》文章已经归档,不再展示相关内容,下文是的自动化写作机器人,通过算法提取的文章重点内容。这只AI还很年轻,欢迎联...
日期:08-01
万里汇(WorldFirst)和Cdiscount等欧洲5大平台达成合作(WorldFirst 万里汇)
  新年好消息第一弹!万里汇(Worldfirst)和ManoMano、Cdiscount、FNAC&DARTY、Rakuten France等欧洲5大电商平台达成合作。跨境电商卖家除了享受万里汇(Worldfirst)便捷的...
日期:07-10
大屏当道,你是否还需要一部小屏的新款iPhone SE?「iPhone SE4屏幕升级!小屏旗舰来了」
iPhone SE4迎来新的消息,一位显示器分析师表示,苹果已经在考虑iPhone SE4的屏幕尺寸和屏幕材料,包括两家供应商的6.1英寸有机发光二极管显示屏和两家供应商的5.7-6.1英寸液晶显...
日期:11-12
大漠叔叔是辞职了吗「“大漠叔叔”宣布离职!网友担心他步老陈后路」
声明:本文来自于微信公众号 直播观察(ID:zhibogc),作者:直播观察,授权转载发布。近年来,随着流媒体的迅速发展,短视频也成为了警务宣传的主要阵地,一些才华横溢的民警也通过直播短视频...
日期:09-29
麒麟9000又回来了!消息称华为要首卖官翻Mate40:5G手机买吗?「华为麒麟9000断货」
虽然是华为两年前推出的手机,不过Mate 40系列依然拥有不错的关注度,当然它也是支持5G网络,并且搭载了麒麟9000处理器。现在,有博主看山的叔叔爆料称,华为可能要首次推出官翻机了,...
日期:10-31
《爆款来了》第二季开播,天猫超级爆款开启全新618爆款计划(爆款来了第二季赵丽颖)
  如何以更好的内容形态将品牌故事传递给大众?   “今年618,天猫超级爆款将成为整个天猫官方爆款列表玩法中的重要一环。” 阿里巴巴集团副总裁、天猫平台营运事业部总...
日期:07-14
微软Edge浏览器:改进生产效率 保护用户隐私_microsoft edge浏览器安全吗
  5月6日消息,据国外媒体报道,在微软Build 2019开发者大会上,微软首席执行官萨提亚·纳德拉(Satya Nadella)表示,微软Edge浏览器基于开源构建,能够兼容Windows以及Android等多...
日期:02-11
麒麟9000又回来了!消息称华为要首卖官翻Mate40:5G手机买吗?「mate40 麒麟9000e」
虽然是华为两年前推出的手机,不过Mate 40系列依然拥有不错的关注度,当然它也是支持5G网络,并且搭载了麒麟9000处理器。现在,有博主看山的叔叔爆料称,华为可能要首次推出官翻机了,...
日期:11-06
柠季获新浪2022科技风云榜年度最受关注创业企业奖
  讯12月16日下午消息,由新浪财经客户端、联合主办的“2022科技风云榜”线上年度盛典今日开幕,今年活动主题为“守正创新,科技向上”。朝鲜媒体报道访华  活动现场,来自各领...
日期:12-17