您的位置:首页 > 互联网

Scaling Law触礁数据墙?Epoch AI发文预测LLM到2028年耗尽所有文本数据

发布时间:2024-06-15 10:10:55  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】训练数据的数量和质量,对LLM性能的重要性已经是不言自明的事实。然而,Epoch AI近期的一篇论文却给正在疯狂扩展的AI模型们泼了冷水,他们预测,互联网上可用的人类文本数据将在四年后,即2028年耗尽。

数据和算力,是AI大模型最重要的两把铲子。

华为p50标准版没有卖

算力方面,英伟达的不断创新和各家代工厂的产能提高,让世界各处的数据中心拔地而起,研究人员暂时不用担心计算资源。

然而,近些年来,数据成为愈发严峻的问题。

根据华尔街日报的报道,OpenAI在训练GPT-5时已经遇到了文本数据不足的问题,正在考虑使用Youtube公开视频转录出的文本。

关于数据耗尽这个问题,非营利研究机构Epoch AI在6月4日发布了一篇最新论文。

根据他们的预测,未来10年内,数据增长的速度无法支撑起大模型的扩展,LLM会在2028年耗尽互联网上的所有文本数据。

论文地址:https://arxiv.org/abs/2211.04325

目前这篇论文已被ICML2024接收。著名的硅谷天才少年Alexandr Wang也转发了这篇论文,并附上了自己的一番见解。

他创办的Scale AI专门为AI模型提供训练数据,估值已经飙升到138亿,是当下硅谷最炙手可热的明星独角兽。

估值飙至138亿美元!27岁华裔天才少年再获融资,数据标注会是下一个风口?

论文作者所属的机构Epoch AI则是一家非营利研究组织,成立于2022年4月,他们致力于调查人工智能的历史趋势,并帮助预测其未来发展。

ipad的lightning接口

虽然这个组织目前只有13名员工,且分布在世界各地,但他们的工作有非常广泛的影响。

英国和荷兰的政府报告都曾引用Epoch AI发表的论文。RAND智库的研究员表示,Epoch的AI模型数据库对于政策制定者来说是宝贵的资源,世界上没有其他数据库如此详尽和严谨。

预测方法

Epoch AI凭什么预测出2028年这个时间点?

说得直白一点,数据量就像一个水池。有存量、有增量,是否够用就要同时看供给侧和需求侧,预测AI模型的数据集会不会把水池抽干。

数据存量

首先需要估计目前互联网上的文本数据存量S。

定期更新的开源数据集Common Crawl爬取到了超过2500亿个网页,包含130T tokens。但这不是全部的网络内容,还需要统计索引网络的大小。

我们先假设谷歌搜索引擎包含了所有索引网站,可以使用词频法估计其中的页面数量。

比如,如果chair这个词出现在Common Crawl0.2%的页面中,而且谷歌可以搜索到40B个包含chair的网页结果,就能初步预估出整个索引网络的大小约为40B/0.002=20T个页面。

采用这种方法,论文估算出谷歌索引包含约270B个页面,每个网页约有1.9KB纯文本数据,这表明整个索引网络的数据量大概为500T,是Common Crawl的5倍。

除此之外,还可以用另一种思路建模,估算整个互联网的数据总量——从使用人数入手。

网络上大部分文本数据都是用户生成的,并存储在各种平台上,因此,考虑互联网用户数和人均产生数据量,即可估计人类生成的公开文本数据量。

根据人口增长以及互联网逐渐普及的趋势,论文对互联网用户增长趋势进行建模,得出的曲线与历史数据非常吻合。

假设每个用户平均生成数据率保持不变,论文预计2024年上传的文本数据总量为180T~500T tokens。

根据这个预测结果以及已知的增长趋势,论文预估,互联网上的存量数据为3100T。

华米手表amazfit小爱同学

由于同时考虑了索引网络和深层网络(搜索引擎无法触及的网页),这个数字可以看作索引网络数据量的上限。

数据质量

5G时代的冲浪选手应该都有体会,虽然在同一个互联网,但文本和文本的质量可以有云泥之别。

比如,在书籍或维基百科的文本上训练出的模型,与Youtube评论喂出的模型,可能有很大的性能差异。因此,只用token数量衡量数据的话,就过于片面了。

但也不能对网络数据失去信心。之前有多项研究表明,通过仔细的过滤和数据处理,网络数据带来的性能依旧优于人工精心挑选的语料库。

论文地址:https://arxiv.org/abs/2306.01116

研究人员尝试对Common Crawl数据集进行类似的处理,发现过滤后数据集大小会降低30%。同时,另一项去年的研究也发现,剪除Common Crawl中50%的重复数据可以实现最佳性能。

因此,有比较充足的理由相信,数据总量的10%-30%可作为高质量数据用于训练,相当于索引网络510T数据中的100T左右。

数据集大小

以上是对互联网数据池的预估,是数据的供给方。接下来,需要对数据使用方——数据集容量(变量D)进行预估。

Epoch曾经在2022年发表了一个知名的机器学习模型数据库,包含了300多个模型,从中选取2010年-2024年间发表的80余个LLM进行分析。

上图表明,目前LLM使用的最大训练集约为10T。Epoch AI之前也曾预估过,GPT-4训练集大小达到了12T tokens。

如果直接根据历史趋势进行外插(图中蓝线),那么到2030年,模型可以接受超过1000T tokens的训练。

但这个结果没有同时考虑算力的限制。根据Scaling Law,Transformer架构所需的数据量大致随训练算力的平方根扩展。

将计算资源和电力资源的约束引入后,就得到了下图中的预测曲线。

由此,论文就得出了预测结果。按照目前互联网数据总量和训练数据集的增长速度,如果以当前趋势继续下去,数据耗尽年份的中位数是2028年,最大可能性是2032年。

这意味着,未来10年内,数据将成为LLM的重大瓶颈,数据墙将成为现实。

慢着,记不记得之前我们预估过,整个互联网上的文本数据总量约为3100T,这些数据怎么没有算进去?

遗憾的是,这部分数据大多分布在Fackbook、Instagram、WhatsApp等社交媒体上,抓取过程不仅复杂、昂贵,而且涉及个人隐私相关的法律问题,因此几乎无法应用于LLM的训练。

但Meta公司等机构似乎没有放弃,仍在探索可能的路径来利用这些数据。

数据墙挡不住LLM?

这篇论文并没有止步于一个偏向于悲观的预测结论,因为同时考虑其他的因素,数据墙只会让模型扩展的速度放缓,而不是完全停滞。

Epoch AI的创始人也在此前的采访中表示过,虽然我们能看到数据耗尽的前景,但目前还没有感到恐慌的理由。

目前就至少有两种策略可以绕过人类文本数据的瓶颈,而且在论文作者看来,这两种方法都是前途无量。

AI生成数据

根据报道,仅OpenAI一家公司的模型每天就能生成100B个单词,也就是每年36.5T个单词,相当于Common Crawl中优质单词的总数。

这远远快于人类生成文本的速度,可以让数据存量急剧扩大,而且在模型输出相对容易验证的领域很有前景,比如数学、编程、游戏等等。

使用合成数据训练的最著名模型莫过于AlphaZero,它通过自我对弈达到了人类棋手都未能企及的水平。

此外2024年最新发布的AlphaGeometry同样使用合成数据进行训练,尝试解决几何问题。

然而,当合成数据推广到自然语言领域时,似乎存在一些本质问题。

之前有研究表明,使用模型输出的文本进行迭代训练,会丢失有关人类文本数据分布的信息,让生成的语言越来越同质化且不切实际。

有研究者还把合成数据导致的模型崩溃形象比喻为近亲结婚,称这种LLM为哈布斯堡模型。

但这个问题也并非无解。有之前的研究证明,通过使用多样的训练数据,或者混合一些人类文本数据,既可以合理利用训练数据,又能一定程度上缓解副作用。

多模态和迁移学习

另一种选择就是超越文本数据,从其他领域掘金。

除了我们熟知的视频、图像之外,金融市场数据或科学数据库也可以使用。有人预测,到2025年,基因组学数据将以每年200-4000万兆字节的速度增长。

除了这两种方法,很多实验室和初创公司也正在积极探索。比如DatologyAI正在研究一种名为课程学习(curriculum learning)的方法,把数据按特定顺序输入,以期LLM能够在概念之间形成更智能的联系。

2022年他们发表的论文显示,如果数据无误,使用这种训练方法的模型可以用一半的数据实现相同的效果。

也许,Epoch AI创始人的话的确有道理。虽然数据是有限的,数据墙也是可预期的,但方法总比困难多。

最大的不确定性在于,你会看到什么样的技术突破。

参考资料:

https://x.com/EpochAIResearch/status/1798742418763981241

https://epochai.org/blog/will-we-run-out-of-data-limits-of-llm-scaling-based-on-human-generated-data

https://x.com/alexandr_wang/status/1799930063192002701

https://time.com/6985850/jaime-sevilla-epoch-ai/


返回网站首页

本文评论
vivo秦飞:探索6G通信与感知和AI融合,打造新增量空间_vivo通信研究院院长秦飞简历
通信世界网消息(CWW)2023年6月12日-22日,国际电信联盟无线电通信部门5D工作组(ITU-R WP5D)第44次会议在瑞士日内瓦举行,国际电联如期完成了《IMT面向2030及未来发展的框架和总体目...
日期:06-27
零售云赋能3.0,品牌商重新审视县镇市场新机遇_布局新零售
  8月8日,第二届苏宁易购零售云合作伙伴大会在苏宁南京总部举行,本次大会的主题为“赋商”,有来自全国各地的七百多名零售云加盟商、品牌商代表参与。   在合作伙伴大会...
日期:01-13
教授建议18到25岁要多谈恋爱:搭子文化不能完全替代恋爱
在最新一期的《瑞私拜》节目中,赵国瑞与知名心理学家迟毓凯教授深入探讨了为何当代年轻人谈恋爱的数量越来越少,以及放弃亲密关系、选择寻找搭子或进行素觉约会是否真的是个好...
日期:05-23
特斯拉已在中国建立数据中心「曝特斯拉将在中国建立自驾数据中心!还要采用NVIDIA最先进芯片」
快科技5月19日消息,据媒体报道,有多名知情人士透露,特斯拉正在考虑在中国收集数据,并在中国建立数据中心进行数据处理以及训练自动驾驶技术算法,进而推动其FSD系统的全球部署。这...
日期:05-19
OpenAI 宣布 ChatGPT 现可选择关闭聊天记录 并将推出全新 ChatGPT Business 订阅服务
4月26日消息:OpenAI 发布公告宣布,在 ChatGPT 中引入了关闭聊天记录的功能。在关闭聊天记录后开始的对话不会被用来训练和改进 OpenAI 的模型,也不会出现在历史侧边栏中。图片...
日期:04-26
贾跃亭公司法拉第未来一年狂亏38亿:百万豪车FF91终极发布定档「贾跃亭在法拉第未来持股」
3月9日消息,法拉第未来(Faraday Future、FF)公布了截至截至2022年12月31日的2022年第四季度和全年财报。结果显示,四季度公司净亏损1.54亿美元,全年净亏损5.52亿美元(约合38亿元),同...
日期:03-09
4岁娃迷路在派出所大口干饭 最终家长赶到将其接回_小孩迷路了警察送回家
近日,广东佛山高明区荷香路与宜家路交汇处的红绿灯下,上演了一场暖心的寻亲记。一名年仅 4 岁的男童,不知怎的,竟在此处迷路了。得知情况后,民警迅速赶到现场,然而在与男童的沟通...
日期:03-19
中图网CEO直播带货自救 称25年从来没有遇到过这样的困境
8月4日,中图网的创始人兼CEO黄平在淘宝“中图网书店”直播间里,首次进行了直播。他从1998年开始创业,一直在幕后经营图书行业,这是他第一次对着直播的摄像头,和线上那些关心中国...
日期:08-07
近半用户换机周期超三年-iPad用户换机周期逐年增加_ipad799元换机
随着2024款苹果iPad Pro和Air的发布,市场研究机构CIRP也发布了一份引人注目的调查报告,揭示了苹果iPad用户的换机周期正逐渐延长。全囯500强排名据CIRP的最新数据显示,高达40%...
日期:05-16
真我12 Pro系列明日发布 徐起:180天只换不修 2年电池免费焕新_真我手机可以换电池吗?
快科技2月26日消息,今日,真我realme副总裁徐起发微博称,真我12Pro系列颠覆中端品质,经过了320多项出厂品质的严苛测试。接着他透露,该系列手机实行:180天只换不修、2年电池免费焕...
日期:02-26
Nothing Phone(二)真机图曝光:延续透明后盖设计,搭载骁龙8+
Nothing是由前一加联合创始人Carl Pei(裴宇)在离职后创办的独立品牌。去年7月,Nothing旗下的首款机型 Nothing Phone (1) 正式发布。Nothing Phone (1) 手机凭借着透明设计的独...
日期:07-11
最低8GB 256GB售价9888元!微软Surface两款新品正式开售_微软surface新品2021
快科技4月11日消息,今天微软官方宣布,Surface Pro {tag_keyurl_6}商用版和Surface Laptop 6商用版正式开售,具体价格为:Surface Pro 10商用版:酷睿Ultra5 8GB 256GB版本售价9888...
日期:04-12
大众CEO承认车机系统很烂 不仅软件硬件也要改_大众车机开发者模式
大众ID系列电动车在续航和驾控质感方面,不少车主普遍给出好评,但是车机问题,却和燃油车一样,成为车主集中吐槽的火力点”,除了不智能之外,还会偶尔抽风”。关于车机存在的问题,就连...
日期:12-03
茶颜悦色回应南京开业风波:深感抱歉,将调整营业时间(南京常发广场茶颜悦色)
讯 8月19日上午消息,针对茶颜悦色南京开业引发的舆论风波,茶颜悦色发文致歉。“因为还没开业,黄牛代购200元一杯茶颜悦色的热搜就被挂在了榜上;以及昨天10几个热搜连环出现,因为...
日期:08-20
东方甄选确认与TikTok合作 海外供应链或将迎来新变革_新版东方萃app
1月22日 消息:近日,有关东方甄选可能与TikTok进行合作的市场传闻得到了证实,对此,一位知情人士回应称:“消息属实。”根据东方甄选官网显示的信息,该公司正在进行相关招聘,其中包...
日期:01-22
九号公司 官网「文旅AIGC产品开发商“九号诶艾科技”获300万元种子轮融资」
7月24日 消息:近日,初创公司“九号诶艾科技”宣布获得“海南康氏实业投资集团”的种子轮融资,旨在加速AIGC垂直产业的布局。oppoa17价格公布据介绍,九号诶艾科技公司于2023年成...
日期:07-24
跳过魅族19!魅族新旗舰或将命名魅族20/魅族20 Pro「魅族新版本」
今日,高通正式发布第二代骁龙8旗舰移动处理器,魅族手机随后宣布,魅族新旗舰也将首批搭载高通第二代骁龙8移动平台。据数码博主WHYLAB”消息,魅族新机已经现身数据库,共有两款机型...
日期:11-17
iPhone 13等老机型维修涨价 换电池688元「iphone13以旧换新价格」
日前苹果官网显示:从2023年3月1日起,iPhone 14之前的所有iPhone机型的保外电池服务费用,将增加169元人民币。也就是从3月1日期iPhone 13以及以前的iPhone的维修费用都涨了不少...
日期:01-03
MiniGPT-5:一种基于生成vokens 的交错视觉和语言生成模型
要点:1. MiniGPT-5是一种基于生成 vokens 的交错视觉和语言生成模型,通过整合大型语言模型和稳定扩散技术,实现了文本和图像的协调输出。2. MiniGPT-5框架采用两阶段训练策略,...
日期:10-24
最强辅助上线!Backseat AI:英雄联盟的免费AI游戏伴侣_2020年lol辅助软件
6月5日 消息:Backseat AI是一款由Riot Games批准的免费AI伴侣,专为《英雄联盟》玩家设计。它通过语音覆盖和游戏内评论的形式,为玩家提供实时的游戏评论和建议,包括购买建议和...
日期:06-05