通信世界网消息(CWW)近日,据外媒报道,一项由路透社研究所进行的研究表明,截至2023年底,全球10个国家的热门新闻网站中,近一半(48%)屏蔽了OpenAI的爬虫(Crawler),而近四分之一(24%)屏蔽了谷歌的AI爬虫。
二手矿卡清灰教程
该研究所分析了包括纽约时报、BuzzFeed新闻、华尔街日报、华盛顿邮报、CNN和NPR在内的15家覆盖面最广的网络新闻来源的robots.txt文件。这些新闻机构来自德国、印度、西班牙、英国和美国等国家,涵盖传统印刷媒体、电视广播公司和数字原生媒体等三种类型。
研究发现,截至2023年底,超过一半(57%)的传统印刷媒体网站,例如《纽约时报》,屏蔽了OpenAI的爬虫,相比之下,电视和广播公司为48%,数字原生媒体为31%。同样,32%的印刷媒体网站屏蔽了谷歌的爬虫,而广播公司和数字原生媒体的比例分别为19%和17%。
与此同时,康奈尔大学最近的一项研究发现,当新型人工智能模型仅使用先前模型而非人类输入的数据进行训练时,它们往往会陷入“模型崩溃”或退化,导致生成内容出现更多错误和误导信息。
网站爬虫被用于多种目的。例如,谷歌的Googlebot会抓取发布商网站,将其收录到搜索结果中。而OpenAI的爬虫GPTBot则会在互联网上收集数据,用于训练其大型语言模型,例如ChatGPT。这使人工智能工具能够生成准确、实时的内容,而新闻发布商尤其擅长提供此类内容:大型语言模型对优质出版商内容的重视程度是其他来源内容的5到100倍。
该研究还指出,全球北方(Global North,指大多位于北美、欧洲和其他地区的更富裕国家)国家的新闻机构比全球南方(Global South,一般是指包括非洲、拉丁美洲和加勒比地区、太平洋岛屿以及亚洲的发展中国家)国家更倾向于屏蔽人工智能爬虫。例如,在美国,79%的热门在线新闻网站屏蔽了OpenAI,而在墨西哥和波兰,这一比例仅为20%。与此同时,德国60%的新闻网站屏蔽了谷歌的爬虫,而在波兰和西班牙,这一比例仅为7%。