您的位置:首页 > 互联网

业内:ChatGPT们毁了网络共享根基,内容所有者不愿再分享

发布时间:2023-08-31 16:56:57  来源:互联网     背景:

8月31日消息,随着人工智能技术的迅猛发展,曾经用于搜索引擎索引的网络爬虫现在被用于收集训练数据来开发人工智能模型。内容创作者意识到,他们的劳动成果被大科技公司免费使用来开发新的人工智能工具,爬虫协议已经无法解决这个问题。这可能会影响内容所有者在线分享内容的动力,从而从根本上改变互联网。

redminote12pro大概什么时候发布

以下为翻译内容:

20世纪90年代末,出现了一种名为爬虫协议(robots.txt)的简单代码,允许网站所有者告知搜索引擎的机器人爬虫哪些页面可以抓取,哪些页面不能抓取。如今,爬虫协议已成为业界普遍接受的非官方网络规则之一。

机器人爬虫的主要目的是索引信息,改善搜索引擎的搜索结果。谷歌、必应和其他搜索引擎都有爬虫程序,它们生成网络内容的索引信息,并提供给潜在的数十亿用户。这也是互联网蓬勃发展的基础,创作者们在网络上分享丰富信息,因为他们知道用户会访问他们的网站并浏览广告、订阅服务或购买商品。

然而,生成式人工智能和大语言模型正在从根本上迅速改变网络爬虫的任务。这些工具并没有为内容创作者提供支持,反而成为他们的敌人。

机器人喂饱了大科技公司

现在,网络爬虫收集在线信息,并生成大规模的数据集,这些数据集被富有的科技公司免费用于开发人工智能模型。比如,CCBot为最大的人工智能数据集之一Common Crawl提供数据;GPTbot则是向人工智能明星创企OpenAI提供数据。谷歌将自家的大语言模型的训练数据称为“无限集合”,但没有提及大部分数据来自Common Crawl的精简版C4。

这些公司开发的人工智能模型使用这些免费信息来学习如何回答用户的问题,这与为网站建立索引信息、让用户访问原始内容的既定模式相去甚远。

如果没有潜在的消费者,内容创作者就没有动力让网络爬虫继续收集免费数据。GPTbot已被亚马逊、爱彼迎、Quora和其他上千家网站屏蔽。对Common Crawl数据集的CCBot的屏蔽也越来越多。

“粗糙的工具”

阻止这些网络爬虫的方式并没有太大变化。网站所有者只能部署爬虫协议并屏蔽特定爬虫,但效果并不理想。

“这是件有点粗糙的工具,”Wordpress前高管、科技投资者、数字营销公司Yoast创始人约斯特·德·瓦尔克(Joost de Valk)说。“它没有法律依据,基本上是由谷歌维护的,尽管他们声称是与其他搜索引擎共同维护的。”

考虑到各大企业对高质量人工智能数据的巨大需求,爬虫协议也容易被操纵。例如,像OpenAI这样的公司只需更改其网络爬虫的名称,就可以绕过人们使用爬虫协议设置的禁止规则。

此外,由于爬虫协议是自愿遵守的,网络爬虫也可以简单地忽略指令并继续收集信息。像Brave等较新的搜索引擎的网络爬虫就不会受到规则的影响。

“网上的一切信息都被模型吸进了真空,”研究人类生成数据与人工智能之间关系的计算机科学教授尼克·文森特(Nick Vincent)说。“这背后发生了很多事情。在接下来的时间里,我们希望能以不同的方式评估这些模型。

创作者的回应

德·瓦尔克警告称,内容所有者和创作者可能已经太迟钝,无法理解允许这些网络爬虫免费获取他们的数据、不加区分地使用这些数据来开发人工智能模型的风险。

“现在,什么都不做意味着,‘我认可我的内容出现在世界上所有的人工智能和大语言模型中,’”德·瓦尔克说。“这是完全错误的。需要创建更好的爬虫协议,但搜索引擎和大型人工智能团队自己很难会去做这件事。”

搭载骁龙765的vivo手机

一些大公司和网站最近做出了回应,其中一些是第一次部署爬虫协议。

检测人工智能生成内容的公司Originality.ai表示,截至8月22日,在1000个最受用户欢迎的网站中有70个使用爬虫协议屏蔽GPTBot。

Originality.ai还发现,在1000个最受欢迎的网站中,有62个屏蔽了Common Crawl的网络爬虫CCBot。随着人们对人工智能数据收集的意识日益增强,今年有越来越多的网站开始屏蔽Common Crawl。

然而,网站不能强制执行爬虫协议。任何爬虫都可以忽略该文件,继续收集网页上的数据,而网页所有者可能根本不知情。即使部署爬虫协议具有法律依据,其初衷与利用网络信息开发人工智能模型关系不大。

纽约大学技术法律与政策诊所主任杰森·舒尔茨(Jason Schultz)表示,"Robots.txt不太可能被视为禁止使用网站数据的法律。"这主要是为了表明人们不希望自己的网站被搜索引擎编入索引,而不是表示人们不希望自己的内容被用于训练机器学习和人工智能。

“这是一个雷区”

事实上,这种情况已经持续了多年。早在2018年,OpenAI就公布了首个GPT模型,并通过BookCorpus数据集进行训练。Common Crawl始于2008年,并于2011年通过亚马逊云服务公开了数据集。

尽管如今屏蔽GPTBot的网站越来越多,但对于那些担心自己的数据被用于训练人工智能模型的企业来说,Common Crawl的威胁更大。可以说,Common Crawl之于人工智能,就像谷歌之于互联网搜索。

非营利组织知识共享(Creative Commons)首席执行官凯瑟琳·斯蒂勒(Catherine Stihler)表示,

“这是一个雷区。我们几年前才更新了战略,现在我们处于一个不同的世界。”

知识共享始于2001年,是创作者和内容所有者用知识共享许可协议来替代严格版权,在网上使用并分享作品许可的一种方式。在共享许可协议的基础上,创作者和所有者保留他们的权利,并允许其他人访问内容并创作衍生作品。维基百科、Flickr、Stack Overflow等许多知名网站都是通过知识共享许可协议运作的。

知识共享组织在最新的五年战略中表示,在训练人工智能技术方面,开放内容的使用存在问题。知识共享组织希望使在线作品共享更加公平。

1600亿网页

通过CCBot爬取公开信息的Common Crawl拥有最大的数据存储库。自2011年以来,它已从1600亿个网页中抓取和保存信息,并持续增加。一般来说,Common Crawl每月抓取并保存大约30亿个网页的信息。

Common Crawl称,这项事业是一个“开放数据”项目,旨在让任何人“打开自己的好奇心,分析世界,追求卓越的想法”。

然而,现在的情况完全不同。大量Common Crawl收集的数据被大科技公司用于开发专有模型。即使一家大型科技公司目前没有从人工智能产品中获利,未来也有可能这样做。

一些大型科技公司已停止披露训练数据来源。然而,许多强大的人工智能模型都是使用Common Crawl开发的。它帮助谷歌开发了Bard,帮助Meta训练Llama,帮助OpenAI创建ChatGPT。

Common Crawl还向The Pile提供数据,后者还拥有更多从其他爬虫抓取的数据集。The Pile已广泛用于人工智能项目,包括Llama和微软与英伟达共同开发的MT-NLG。

从今年6月份开始,The Pile下载量最大的数据之一是受版权保护的漫画书,包括阿奇漫画、蝙蝠侠、X战警、星球大战和超人系列的作品。这些作品都是DC漫画和漫威创作的,现在仍受版权保护。最近有报道称,The Pile中还存储了大量受版权保护的书籍。

纽约大学的舒尔茨表示,爬虫的目的和使用方式完全不同。很难监管或要求它们以特定方式使用数据。

同心携手抗疫情

对于The Pile来说,虽然它承认数据中包含受版权保护的材料,但在创立数据集的技术文章中声称,“处理和分发他人拥有的数据也可能违反版权法”的说法几乎没有人会认同。

此外,The Pile还辩称,尽管数据集中存储了相对未经改变的作品,但根据合理使用原则,对这些材料的使用应该是变革性的。The Pile还承认,在训练大语言模型时,需要使用完整的版权内容以产生最佳效果。

网络爬虫和人工智能项目中所谓的合理使用观点已经受到了质疑。作家、视觉艺术家甚至源代码开发人员起诉OpenAI、微软和Meta等公司,因为他们的原创作品在未经许可的情况下被用于训练模型,而他们并没有从中受益。

微软前高管、风投公司安德森·霍洛维茨(Andreessen Horowitz)合伙人史蒂文·辛诺夫斯基(Steven Sinofsky)最近在社交媒体上写道,即便将东西放到互联网上,也不能不经同意就免费、无限制地将某人的劳动成果用于商业用途。

没有解决办法

“我们现在正在努力解决所有这些问题,”知识共享组织首席执行官斯蒂勒表示,有很多问题需要解决:补偿、授权、信任。在人工智能时代,我们还没有答案。

德·瓦尔克表示,由于知识共享许可协议可以促进版权的流通性、允许自己拥有的作品在互联网上使用,可以作为开发人工智能模型的一种潜在许可模式。

斯蒂勒对此并不确定。她说,涉及到人工智能时,也许并没有单一的解决方案。即使是更灵活的通用协议,也可能行不通。你如何向整个互联网授权?

斯蒂勒说:“与我交谈过的每一位律师都说,许可并不能解决问题。”

她经常与作者、人工智能行业高管等利益相关者讨论这个问题。斯蒂勒今年早些时候会见了OpenAI的代表,并表示公司正在讨论如何奖励创作者。

但她补充说,目前还不清楚人工智能时代的公共空间将会是什么样子。

鉴于网络爬虫已经为大型科技公司收集了大量数据,加上内容创作者根本无法掌控,互联网可能会发生巨大变化。

如果发布信息意味着将数据免费提供给与自己竞争的人工智能模型,那么这种活动可能会停止。

已经有迹象表明,访问问答网站Stack Overflow来回答问题的程序员越来越少,因为他们之前的付出被用来训练人工智能模型,现在这些模型可以自动回答许多问题。

斯蒂勒表示,所有在线创作内容的未来可能很快就会像现在的流媒体一样,内容被锁在订阅服务中,成本越来越高。

“如果我们不小心,最终就会导致公共空间关闭,”斯蒂勒说。“将会有更多有围墙的花园、更多人们无法访问的东西。这不是未来知识和创造力的成功模式。”(辰辰)


返回网站首页

本文评论
又一款真智能电动车上市,九号电动E京东4999元起,后悔买小牛_九号电动车e秒杀小牛
  两轮电动车只“看脸”的时代已经过去了。乘坐人工智能和物联网技术的快车,电动车行业开始向智能化、高端化方向迈进。12月25日0点,九号机器人全新推出的真智能电动车—...
日期:12-09
苹果推出iPad版 Final Cut Pro 与 Logic Pro 5月24日上架_final cut pro ipad版本
5月10日 消息:苹果宣布推出 iPad 版 Final Cut Pro 与 Logic Pro。北京时间 5 月 24 日(周三)起,iPad 版 Final Cut Pro 与 Logic Pro 将以订阅服务方式在 App Store 推出。据...
日期:05-10
传统OA的上云之变,华为云618营销季OA上云解决方案体验「华为云 aom」
1. 前言移动互联的到来,让OA与云变得紧密关联起来。一方面,传统的OA产品开始利用云平台强化服务价值、推动产品研发变革,另一方面,新一代云OA产品开始广泛发展起来,成为协同OA领...
日期:06-14
谷歌面部识别_谷歌开始收集面部数据,隐私问题再度引爆
  谷歌最新的智能显示屏最近出了一项备受争议的新功能Face Match,它是在谷歌Nest Hub Max上推出的。Face Match使用智能显示屏的前置摄像头作为一项安全功能,以及参与视频...
日期:07-08
HPE蜕变记:一切即服务 一切为服务_hp服务器是什么
  文/在前线 老凉   一切即是服务,一切为了服务。   近期在拉斯维加斯召开的2019 Discover大会上,HPE重磅宣布,向服务公司转型!HPE方面称,2022年之前通过基于订制化、按...
日期:01-16
英特尔锐炬显卡相当于什么显卡「英特尔锐炫Pro A系列图形显卡,为工作站显卡领域提供新选择」
英特尔推出两款全新英特尔锐炫Pro图形显卡;搭载英特尔锐炫Pro A40图形显卡的系统现已出货。东芝半导体最新消息全新发布:英特尔今日宣布英特尔锐炫™Pro A系列专业级图形显...
日期:06-21
短视频想要出爆款?先学会写好脚本_短视频脚本写作技巧
声明:本文来自于微信公众号 晏涛三寿(ID:yantao-219),作者:晏涛,授权转载发布。如今短视频既是风口,更是趋势。无论是企业还是个人都纷纷入局短视频,想要从中分一杯羹。但在实际运...
日期:12-15
阿里云智能被爆开始大裁员,整体比例约7%_阿里云智能制造解决方案
5月23日消息,今日有媒体消息,阿里云智能被曝开始进行组织岗位和人员优化,整体比例约7%,补偿标准为N+1+1。小米redmi note 11 pro报道称,一位阿里云智能内部人士透露:“每年公司会...
日期:05-23
区块链排名100「福布斯2023全球区块链50强:蚂蚁、百度、腾讯等上榜」
2月8日讯:今日,福布斯发布2023全球区块链50强,蚂蚁、百度、腾讯等中国企业上榜。红米note10pro限购...
日期:02-09
给您更低的运营成本和更大的绿色空间 智微智能GreenPC GCA01开箱体验「北京绿智空间环保科技有限责任公司」
今天我拿到的这台绿色节能商用电脑,搭载了英特尔 12 代酷睿标压H45 处理器,从环保角度来看,它打败了市面上99%的商用PC;从性能来看,它也不会弱于当下主流的商用办公PC。没错!它就...
日期:04-18
小米年底裁员?内部人士:事情确实有,规模没那么大,补偿政策为N+2
(原标题:小米年底裁员?内部人士:事情确实有,规模没那么大,补偿政策为N+2) 柔软又灵活的机器人手指不仅能夹东西 居然还能吃饭近日,有...
日期:12-19
创始人不一定是董事长「创始人或核心高管英年早逝,那些企业何去何从?」
声明:本文来自于微信公众号三言财经(ID:sycaijing),作者:三言财经,授权转载发布。昨日晚间,华为在内部社区“心声社区”发布讣告称,华为公司监事会副主席丁耘因突发疾病去世,享年53岁...
日期:10-10
英伟达发布 RTX 4070 Ti 显卡:国行 6499 元,1 月 5 日上市
IT之家 1 月 4 日消息,英伟达今日发布 RTX 4070 Ti 显卡,国行售价 6499 元,1 月 5 日上市。英伟达表示,得益于 NVIDIA Ada Lovelace 架构创新和 NVIDIA DLSS 3,全新 GeForce RTX...
日期:01-04
马斯克将对推特全面裁员 已要求经理制定裁员名单_马斯克 推特ceo
凤凰网科技讯 北京时间10月30日消息,知情人士称,在完成了对推特的收购交易后,埃隆马斯克(Elon Musk)计划最快从当地时间周六开始对推特裁员,目前已经要求一些经理起草裁员名单。...
日期:11-11
未来的移动市场谷歌Android将扮演霸主角色(android未来发展趋势)
    据市场研究公司NPD本月早些时候的调查数字显示,运行Android操作系统的智能手机第一季度的销售量占美国市场份额的28%,领先于iPhone。苹果首先对这个数据提出了质疑,并...
日期:07-29
为什么不让用共享单车了_共享单车不能任性了
  (原标题:多城公布考核成绩单—— 共享单车不能任性了 )       厦门、成都等多座城市近期公布了共享单车考核“成绩单”,并将考核结果与投放份额挂钩,奖优罚劣。业内人士...
日期:11-24
成龙传说下载「AI技术加持!电影《传说》将还原27岁成龙形象」
对于不少影迷来说,看到自己喜欢的演员随着时间推移逐渐不复往日光彩,都是一件颇为遗憾的事情。nand固态硬盘而现在,在AI技术的辅助下,让已经不再年轻的演员在荧幕上重现往日风采...
日期:06-11
韩演艺圈潜规则丑闻疯传 107G视频种子暗藏木马
  继女星张紫妍自杀曝出韩演艺圈潜规则丑闻后,近日韩国演艺界再曝偷拍事件,高达107G的明星偷拍视频疯传网络。但如果用360安全卫士和360杀毒扫描检测,会发现该视频BT下载种...
日期:07-22
思享2018节目_思享无限2020年度盛典完美收官  打造独特内容生态
  2020年12月29日晚,秀色直播2020年度盛典迎来决赛巅峰对决,经过激烈的角逐,一粒彩蛋传媒、BP传媒、华星传媒、蝶依传媒分获秀色直播、乐嗨直播、嗨秀直播和蜜疯直播年度第...
日期:07-16
华为mate 60系列将于10月发布「2022年能等到华为mate60吗」
华为mate 60系列将于10月发布,泄露的渲染图显示了一个新的设计,包括对称的四圈摄像头模块和背面的大“huawei”标志。amd发布锐龙7000测评马斯客机器人a1584是ipadpro16年mate...
日期:04-28