您的位置:首页 > 互联网

数据墙迫近?苹果OpenAI等巨头走投无路,被迫偷师YouTube视频!

发布时间:2024-07-21 13:04:08  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】近日,《连线》杂志联合ProofNews联合发表一篇调查文章,指责苹果、Anthropic等科技巨头未经许可使用YouTube视频训练AI模型。但训练数据的使用边界究竟在哪里?创作者、大公司和开发者正在陷入知识产权的罗生门……

AI科技巨头的数据荒到底该拿什么拯救?

为了训练生成式AI,尤其是在scalling law的支配之下,互联网上现存的内容早已不能满足LLM越来越大的胃口,It's soooo hungry for data!

数据荒的直接结果,就是科技巨头对GenAI的训练数据越来越饥不择食。

不仅仅是书籍、文章,甚至Instagram、X、Fackbook等各种社交平台上的内容也是来者不拒。

前段时间和OpenAI签合作协议,而且坑了谷歌搜索、导致Gemini教唆网友给披萨加胶水的Reddit也是其中之一。

为了规避潜在的法律纠纷,GPT、Gemini、Claude等商业模型在发布时往往选择对训练数据三缄其口,绝口不提及其来源、构成、使用许可等信息。

然而,这个问题早就引起了创作者和各种媒体平台越来越强烈的不满。

近日,Anthropic、英伟达、苹果和Salesforce等公司再次身陷数据门,遭受到《连线》杂志和非营利新闻工作室ProofNews的猛烈攻击。

两家媒体联合进行了一项调查,发现这些科技巨头们大量窃取了Youtube上的视频字幕用于训练,使用了共计超过4.8万个频道的17.4万个视频。

ProofNews甚至制作了一个在线搜索工具,对这种行为进行持续的公开处刑。哪些创作者和视频被偷偷纳入数据库,一搜就知道。

网页地址:https://www.proofnews.org/youtube-ai-search/

追根溯源,这些数据指向一个共同来源——Eleuther AI在2020年发布的数据集Pile。

作为非营利组织,Eleuther AI建立Pile项目的初衷本是为了帮助小型组织和研究人员,促进AI研究的民主化,没想到最后也成为了大公司的囊中之物。

这正是事情的吊诡之处——本来是为反巨头而生的Pile反而让巨头用得不亦乐乎。

一边是怨声载道的创作者,不满科技巨头又用数据、又抢饭碗的粗暴行径;另一边是宣扬着伟大AGI愿景的科技巨头。

像EleutherAI这样辛辛苦苦爬数据还开源的NPO,怀抱着促进数据共享和技术公平的初衷,结果只落得被大公司利用、被创作者批判的境地。

Pile:有罪的开源?

ProofNews和《连线》杂志将主要矛头对准了Eleuther AI在2020年发布的大型开源文本数据集Pile。

文章愤怒地指出,Pile不仅包括YouTube字幕,还有来自欧洲议会、英语维基百科的语料,甚至还有安然(Enron)公司员工的大量电子邮件。

然而,Pile数据集的论文本身却给我们呈现出完全不一样的图景。

论文地址:https://arxiv.org/abs/2101.00027

这篇将近40页的论文不仅详细披露了共825GB文本数据的全部22个来源,还详细讨论了数据收集应当遵循的原则和广泛影响。

从上图中可以看到,处于争议焦点的两个数据集——YoutubeSubtitles和Enron Emails被公开列了出来。

下面的树状图中,也没有避讳字幕类数据的使用,反而是在佐证数据集内容的多样性。

为什么Eleuther AI的研究团队能这么毫不心虚?

首先,Enron Emails是美国联邦政府对该公司进行调查期间发布到网上的,已经作为公开数据集被使用多年,因此不存在我们想象中的隐私泄露问题。

https://www.cs.cmu.edu/~enron/

其次,作者团队对Youtube字幕数据的使用也做出了充分的说明和讨论。

所有数据集的可用性被分为三类:

- 公开数据:网络上完全免费、公开的数据,没有任何访问障碍

- 符合服务条款(ToS)的数据:数据的获得和使用符合服务条款的相关要求

- 得到作者许可的数据:原作者已经同意对数据的使用

如表5所示,22个数据集中,仅有5个数据集没有得到ToS许可,但在NLP社区中,除了YoutubeSubtitles外的其他4个都已经被广泛传播并使用。

对于YoutubeSubtitles本身,作者在抓取数据时使用了一个非官方API,并进行了大量数据处理工作。而且,这个AP工具在Pip、Conda、GitHub等平台上都很流行且能极易取得。

API流行且极易取得,意味着相关数据的广泛传播和使用也许已经是既成事实。

大量处理工作似乎是暗示,这个数据集并非只包含视频创作者的心血,同时也凝结了论文作者的技术知识和劳动。

因此,论文中有这样一句总结性陈述:

Given the processing applied and the difficulty of identifying particular files in the Pile, we feel that our use of these datasets does not constitute significantly increased harm beyond that which has already been done by the widespread publication of these datasets.

考虑到所采用的处理方法,以及在Pile中识别特定文件的难度,我们认为,基于这些数据集目前的大范围公布,我们的使用并不会显著增加其危害。

除了可用性讨论,作者也用了不少篇幅指出Pile中包含的有害内容,比如性别、种族、宗教等方面的偏见,以及亵渎或贬损类话语。

此外,研究团队还公开了数据集全部内容,以及预训练所用的代码。

https://pile.eleuther.ai/

https://github.com/EleutherAI/the-pile?tab=readme-ov-file

除了建立数据集,论文也提出了将Pile作为基准测试的可能,并在对GPT-2和GPT-3的实验中,揭示了文本数据多样性对模型性能的影响。

综合上述内容,站在AI技术人的角度,Eleuther AI的这篇论文不仅无过,而且可以称得上是非常负责且有贡献的研究。

然而,Pile自从发布后就惹上了一身麻烦,各种诉讼案件接踵而来。

目前,Eleuther的官方网站已经将Pile数据集删除,但它凭借自己强大的历史影响,依旧在AI/ML社区广泛流传。

倒下了一个Pile,后来的开源数据集还会继续站起来。

上图中提到的BigCode项目如此,NLP社区广为人知的Common Crawl也是如此。

这个非营利组织从2007年开始抓取网页数据,坚持至今,收集网页数量超过2500亿。

据Hacker News网友估计,总数据量大概以每月200~300TB的速度稳定增长,可能已经累积到数十甚至数百PB。

与Pile的命运不同,CC数据集安然存活至今。这些数据都托管在亚马逊云平台上,可以通过命令行直接下载。

https://commoncrawl.org/get-started

创作者:请停止剥削

虽然在AI从业者的眼中,对Pile的指责有些过分苛责,但对于Youtube创作者而言,他们的愤怒和无奈也是真实的。

ProofNews的调查发现,被Pile搜刮的创作者中不乏粉丝千万的YouTube网红,甚至一些官方账号也未能幸免。

YouTube Subtitles数据集中,不仅包含可汗学院、哈佛、MIT等在线教育频道的视频转录字幕,还有《华尔街日报》、NPR、BBC等媒体的新闻视频,Stephen Colbert、Jimmy Kimmel等人主持的风靡全美的脱口秀节目也赫然在列。

在创作者眼中,没有经过本人同意就抓取创作内容用于训练AI,实质上是一种剽窃,甚至剥削。

David Pakman是自己同名脱口秀节目的主持人,拥有200多万订阅者,浏览量超过20亿次。

YouTube Subtitle数据集中,收录了该节目的近160个视频。但更让Pakman感到愤怒的是,他发现自己在TikTok上被克隆了。

Pakman自己曾经说过的台词被一字不差地挪用,甚至连语调都一样,只不过换成了一个叫作Tucker Carlson的人。更让他震惊的是,评论区居然只有一个人发现了这一点。

Pakman对此忿忿不平:这是我的生计,我投入了时间、资源、金钱和员工的时间来制作这些内容。

他认为,如果人工智能公司从克隆中盈利,那么自己也应该获得报酬。

Nebula的首席执行官Dave Wiskus则说得更加露骨:这是盗窃行为。

Nebula是一家流媒体公司,其内容同样也被大公司从YouTube上盗用,用于训练人工智能。

Wiskus表示,未经创作者同意就使用他们的作品是不尊重他们的行为,尤其是生成式人工智能会尽可能多地取代艺术家。

这绝对是对艺术家的严重伤害和剥削!

孤立无援的创作者对未来的道路感到十分迷茫,心中充满了不确定。

一些全职YouTube用户会巡查他们的作品是否被未经授权使用,定期提交删除通知,不能心无旁骛地创作。

马斯克有没有可能成为美国的总统

即便如此,他们还是被焦虑笼罩,担心AI能够生成与他们制作的内容类似的内容只是时间问题。

通过YouTube可以快速学习人类说话的方式和习惯,这件事好理解,可关键是AI它什么都学啊!

ProofNews发现,AI公司使用的视频中有146个来自Einstein Parrot,这个账号有15万粉丝,但博主的身份是一只非洲灰鹦鹉。

鹦鹉模仿人类说话,然后AI再模仿鹦鹉模仿人类说话,然后人类每天跟AI聊天机器人说话,开始模仿AI……闭环了,朋友们。

大公司:用开源,我错了么

除了爬取的视频数据翻个底朝天,ProofNews还搬出了大公司使用Pile来训练人工智能的铁证——

苹果4月份发布了一个备受瞩目的模型OpenELM,在论文当中就提及了Pile。

论文地址:https://machinelearning.apple.com/research/openelm

可是苹果也很委屈,表示OpenELM模型的目的是为研究社区作贡献,推动开源LLM的发展。

Anthropic也是如此,其发言人Jennifer Martinez在一份声明中证实,Claude确实使用了Pile数据集,但是关于侵权问题,她表示我们必须请教Pile的作者。

Salesforce也确认,他们使用了Pile来构建用于学术和研究目的的人工智能模型,但公司人工智能研究副总裁Caiming Xiong在声明中强调,Pile是公开数据集,因此他们的使用无可指摘。

实际上,盯上Youtube这个数据金矿的科技巨头远不止这几家。

今年4月,纽约时报就披露了OpenAI、谷歌、Meta等公司收割Youtube数据的情况。

https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html

比如OpenAI创建了一款名为Whisper的语音识别工具,用于将Youtube视频转录为文本,用作训练数据。

拥有Youtube平台的谷歌则可以理直气壮的表示,使用平台上的视频内容进行模型训练,这是是与创作者达成的条款中所允许的。

硅谷风投公司Andreessen Horowitz的律师Sy Damle表示,模型所需的数据如此庞大,即使是集体许可也确实行不通。

在这个未形成共识的灰色地带,似乎所有利益相关方都在困境中,但所有人都无解。

从小型组织、研究者,到Eleuther AI这样的NPO,再到科技巨头,数据墙的威胁近在眼前。要想跟上技术发展的节奏,就得竭尽所能利用一切数据来源。

内容创作者们,则眼看着自己的心血创意变成反噬自己的强大力量,想要阻止却收效甚微。

我们正在踏入一种未知,或许只有未来才能给出答案。

参考资料:

https://arstechnica.com/ai/2024/07/apple-was-among-the-companies-that-trained-its-ai-on-youtube-videos/

https://www.proofnews.org/apple-nvidia-anthropic-used-thousands-of-swiped-youtube-videos-to-train-ai/

https://www.wired.com/story/youtube-training-data-apple-nvidia-anthropic/


返回网站首页

本文评论
转转能信任吗「陷入用户信任危机,转转玩不转了?」
作者|张宇编辑|杨博丞二手闲置交易平台转转正陷入一场信任危机之中。11月29日,话题“网友举报转转二手手机出具阴阳检测合同”登上微博热搜榜第一名,引发了大量舆论关注。魅族19...
日期:12-03
UNLEASH2019首登中国,中国平安携手探索可持续发展新智慧(推动平安中国)
  全球青年创新集训营活动(UNLEASH2019)将于11月6日至13日在深圳举办,中国平安作为金融科技界的代表企业将出席并参与本次活动。   全球青年创新集训营是为响应联合国...
日期:07-04
谁在睡200万的高奢床垫?李嘉诚等大佬青睐 买它跟钱没关就是为睡好
果然大家八卦的力量是无穷的,所以一对明星夫妻在社交平台上的囧事,带火了200万的床垫”的梗,不过有趣的是,床垫到底是哪个品牌的,除了当事人没人知道,但不妨碍相关品牌蹭蹭热度。...
日期:11-25
已有人加价8万元收购华为黄金手表 华为用户太疯狂了_华为专卖店回收华为手表吗
来源:中关村在线饭菜是趁热放冰箱还是等凉了苹果ipad会发布2022吗酷派s6手机华为在9月25日的秋季新品发布会上,推出了一款名为ULTIMATE DESIGN非凡大师的全新超高端品牌,同时刘...
日期:09-26
乔布斯如雷军所愿去世了_乔布斯死了没
10月6日消息,据国外媒体报道,苹果公司对外沉痛地宣布联和创始人斯蒂夫·乔布斯辞世,享年56岁。随后,国内智能手机小米手机创始人雷军发微博称,乔布斯去世太突然,但他活在每个人心...
日期:07-23
figma cto「200亿美元“卖身”巨头,Figma不是SaaS的“终极出路”」
  屠龙少年未必一定变成恶龙,也可能是恶龙的“新救赎”。  作者 | 罗宁; 编辑;|;靖宇  来源:极客公园  9 月 15 日,成立十年零一个月的设计平台 Figma,被成立四十年的软...
日期:09-28
vivos6上架时间「vivo S16上架预约:三款机型 22日发布」
日前,vivo已经正式官宣,将在12月22日举行发布会,当天将会发布vivo S16系列手机,目前系列共有3款新机,包括vivo S16e、vivo S16、vivo S16 Pro三款机型,而目前vivo S16系列已经上架...
日期:12-18
红米百元机重出江湖?放言为普及5G手机而来「红米5g智能机」
9月29日消息,Redmi红米手机宣布,Redmi千元小金刚再添猛将,Note 11R为普及5G手机疾速而来。简单说,小米推出了Note 11R,虽然说定价千元,但随着双11到来,未来价格落到百元几乎是可以...
日期:09-29
GPTs应用下载创建教程 GPTs应用商店官网入口_gpt软件
在首届全国开发者大会上,OpenAI宣布了GPTs的推出,即GPT Store,这是一款类似于App Store的应用商店。此功能允许用户根据自己的需求自定义ChatGPT,而无需具备编程知识。下面就给...
日期:11-16
单耳2699元双耳3999 元 科大讯飞推出AI耳背式助听器_科大讯飞录音耳机怎么样
4 月 21 日消息,科大讯飞近日推出一款 AI 耳背式助听器,内置基于星火认知大模型的 AI Scene 2.0 自适应场景识别系统,可实现 65dB 音频增益,IT之家整理价格信息如下:   单耳:售...
日期:04-21
美股周一:纳指和标普500均创14个月来新高,Rivian涨超17%_美股纳指指数走势图
美国时间周一,美股收盘主要股指全线上涨。在因假期缩短的交易时段,标指和纳指均创逾14个月来的最高收盘价,投资者关注上半年由大型科技股主导的强劲反弹是否可以扩大。美股在美...
日期:07-04
全球游戏用户规模_调研机构:2023 年全球玩家将达 30 亿,游戏玩家占人口四成
  7 月 6 日消息 市场调研机构 Newzoo 表示,由于人口结构的变化和移动设备的普及,到 2023 年,全球游戏玩家数将达到 30 亿,约占当时全球人口的 39%。   Newzoo 称,2020 年...
日期:07-14
当当要重塑创业者和资本及投行关系
  在纽约上市一个月有余,电子商务网站当当网CEO(DANG.NYSE)李国庆在微博上骂了一个月。先是骂早期投资机构,这几天又在骂负责当当网上市的投行,最终引发了一场网络对骂。  ...
日期:07-25
欧洲央行研究显示:AI 对工资的威胁可能大于对工作机会的威胁_ai对就业的影响 经济学
11 月 29 日消息:欧洲央行(ECB)周二发布的一项研究报告显示,在 2010 年代深度学习的高速发展期间,年轻人和高技能工作者的就业机会实际上有所增加,而非消失。该研究调查了 2011...
日期:11-29
中国互联网大会发布“数字化转型案例”,蚂蚁集团多项案例入选
12月19日 消息:近日,第二十一届中国互联网大会在深圳召开。为进一步发挥互联网在城市数字化发展过程中的引领作用,推动城市新旧动能转换,促进数字经济发展,大会开展了“互联网助...
日期:12-19
广州:鼓励民营企业积极参与人工智能应用场景建设「我国企业在人工智能发展过程中应如何发挥作用」
8月2日消息:广州发改委发布广州市促进民营经济发展壮大的若干措施。其中提到,打造和开放创新应用场景。聚焦应用场景示范,鼓励民营企业积极参与人工智能应用场景建设。在智能...
日期:08-03
2023年中华联合财险威海中支继续开展“保险+期货”试点工作_中华联合保险威海分公司
为推动乡村振兴战略的实施,中华联合财险威海中支作为首席承保公司,已在荣成市连续三年开展苹果“保险+期货”项目试点工作,以充分利用保险和期货等金融工具,探索可持续的市场运...
日期:12-26
全新一代华为海思芯片V811首发!七大绝技 支持8K30Hz解码「华为海思芯片810型号」
快科技5月20日讯,今日,当贝发布了最新的家用4K投影仪当贝F6,其中,业界首发的全新一代中国芯”华为海思V811芯片成为一大看点。据了解,华为海思V811是华为智慧屏鸿鹄818的升级款之...
日期:05-20
百度绘图员是做什么的「业界人士称百度画图AI训练素材非套壳,采用英文开源图片素材」
3月23日 消息:今日,针对部分网友有关“文心一言文生图功能”的反馈,百度官方回应称,文心一言完全是百度自研的大语言模型,文生图能力来自文心跨模态大模型ERNIE-ViLG。“在大模...
日期:03-24
支付宝又做社交了_支付宝的社交圈为什么会走向失败
声明:本文来自于微信公众号见实(ID:jianshishijie),作者:见实,授权转载发布。支付宝也想做一个有社交属性的多功能“钱包”了。近日,“支付宝内测一项名为‘兴趣社区’的社交功能...
日期:01-06