您的位置:首页 > 互联网

ChatGPT等模型疯狂训练,最快2026年消耗尽公开文本数据

发布时间:2024-06-19 12:06:57  来源:互联网     背景:

声明:本文来自于微信公众号AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区,授权转载发布。

AI发展科研机构Epochai在官网发布了一项,关于大模型消耗训练数据的研究报告。

目前,人类公开的高质量文本训练数据集大约有300万亿tokens。但随着ChatGPT等模大型的参数、功能越来越强以及过度训练,对训练数据的需求呈指数级增长,预计将在2026年——2032年消耗完这些数据。

研究人员特别提到了“过度训练”(Overtraining)是加速消耗训练数据进程的主要原因之一。例如,Meta最新开源的Llama3的8B版本过度训练达到了惊人的100倍,如果其他模型都按照这个方法来训练,数据可能在2025年就消耗尽了;70B版本还好,过度训练只有10倍。

所以,无论是闭源还是开源大模型,已经进入比拼训练数据的阶段,谁的模型学习的数据更多、维度更广,即便是小参数同样可以战胜大参数模型,尤其是在RAG、MoE、MTL等加持下效果更明显。

什么是过度训练

过度训练是在深度学习领域,特别是在大模型的训练过程中,开发者有意让模型使用的训练数据量超过计算最优模型所需的量。这种做法与传统的机器学习中避免过拟合的目标不同。

过拟合发生在模型过于复杂或者训练时间过长,以至于模型开始记忆训练数据中的噪声而非泛化到未见数据。但在大模型的过度训练是一种优化策略,可以节省推理成本和效率,同时模型开始学习训练数据中的噪音和细节,而不是潜在的数据分布。

这就像学生学习历史一样,如果只记住大量的日期和事件,而没有理解它们之间的联系和意义,在面对新的问题或需要综合分析时,可能无法给出准确的逻辑答案。

此外,大模型过度训练意味着参数量与训练数据量的比例超过了Chinchilla缩放定律建议的最佳比例大约D/N比为20。

在Chinchilla缩放定律下,保持这个比例可以使得模型在固定的训练计算预算下达到最低的可减少损失。不过开发者可能会选择让这个比例高于最优值,会让模型使用更多的数据来训练。

这样做虽然会增加训练阶段的数据需求,但能够减少模型在推理阶段的算力成本。因为相对于昂贵GPU,训练数据就便宜的多,尤其是在超大规模参数模型中的收益更明显。

Meta最新开源的Llama3系列模型是过度训练的典型,GPT-3、Flan137B、Falcon-180B等模型也都存在这一现象。

如果保持在5——10倍的过度训练量,训练数据的消耗度还在可控范围之内,如果在100倍以上,将呈指数级增长,而Llama3的8B版本过度训练就已经达到100倍。

公开训练数据没了,4种其他获取方法

五月份suv销量

在大模型领域,训练数据已经和AI算力一样变得非常重要,是决定模型性能的关键元素之一。虽然可以再生,但消耗速度过快可能会盖过生成速度出现无数据可用的局面。Epoch ai给出了以下4种获取训练数据的新方法。

ios 16对信号有所改善吗

1)合成数据:合成数据主要利用深度学习来模拟真实数据,来生成全新的数据。这种方法在数据短缺的情况下显得尤为重要,因为提供了一种潜在的无限扩展数据集的方式。目前,很多科技巨头已经在使用这个方法,不过也有很大的弊端。

合成数据的质量可能会比较差并出现过拟合行,这是因为在合成的过程中无法完全捕捉到真实数据的复杂性和多样性。

例如,合成数据可能缺乏真实文本中的某些细微的语言特征,或者可能过于依赖模型训练时使用的特定数据集,导致生成的文本缺乏多样性。此外,合成数据可能会引入一些新的偏差,这些偏差可能会影响模型的性能。

2)多模态和跨领域数据学习:多模态学习是一种涉及多种数据类型的学习方法,它不仅限于文本,还包括图像、视频、音频等多种形式的数据。通过结合不同模态的信息,可以更全面地理解和处理复杂的任务。

例如,GPT-4o、GPT-4V、Gemini等可以同时处理文本描述和相应的图片,以更好地理解场景和语境。这也是目前多模态大模型的主要训练数据方法之一。

此外,开发者也可以将目光投向其他领域,例如,金融市场数据、科学数据库、基因数据库等。根据预测,基因领域的数据增长每年保持在几百万亿甚至上千万亿,可以产生源源不断的真实数据。

3)私有数据:根据Epoch ai调查数据显示,目前全球文本数据包含私有总量大概在3100万亿tokens。而公开数据只有300万亿,也就是说还有90%的私有数据可以使用。

目前,已经有科技公司开始从这方面下手,例如,OpenAI成立了一个“数据联盟”专门搜集高质量、没公开过的私有数据,在训练GPT系列和最新的前沿模型。

但使用私有数据很有难度,首先,隐私和安全性是最大的顾虑,非公共数据往往包含敏感信息,如果用于模型训练,可能会引发隐私泄露的风险。例如,社交媒体上的私人对话、个人邮箱中的通信记录,这些都是用户不希望被公开的数据。

其次,获取和整合非公共数据的过程可能非常复杂。与公共数据相比,非公共数据分散在不同的平台和系统中,缺乏统一的标准和格式。这就需要开发新的技术和方法来收集、清洗和标准化这些数据,以便它们能够被有效地用于大模型训练

4)与真实世界实时交互学习:可以让模型通过与真实世界的直接互动来学习和进步。与传统的基于静态数据集的训练方法不同,这种学习方法强调的是大模型的自主性和适应性。在这种模式下,模型不仅仅是被动地接收数据,而是主动地探索环境,通过与人类交互来获得知识和技能。

但这种方法对模型的架构、性能、算力要求较高,需要具备一定的自主性和决策能力。大模型需能够准确理解用户输入的指令或问题,并根据这些指令在现实世界中采取行动。

三星a9s摄像头

例如,大模型可能需要根据用户的请求来推荐餐厅,这不仅需要它理解用户的偏好,还需要它能够访问和分析实时的餐厅信息。

iPhone 6上市

此外,与真实世界互动的学习还需要模型具备处理不确定性的能力。现实世界是复杂多变的,充满了不确定性和偶然性。

模型需要能够适应这些不确定性,从不断变化的环境中学习并做出合理的决策。这就涉及到概率推理、风险评估和决策制定等高级认知功能。

企业、开发者们珍惜训练数据吧,就像我们珍惜水资源一样。不要等着枯竭的那一天,望着荒漠干流泪。

本文素材来源Epoch ai官网,如有侵权请联系删除


返回网站首页

本文评论
画质卓越,视听盛宴 —— 大眼橙C1 Air投影仪打造沉浸式观影体验_入手谈一下大眼橙投影仪
在租房生活中,拥有一款高品质的投影仪无疑是提升生活品质的重要方式。今天给大家带来的是大眼橙C1Air投影仪,其以卓越的画质、出色的音质、智能的操作体验和合理的投射比,为租...
日期:04-10
进博会的全球买买买,区块链的跨境贸易商机(进博会购买进口商品)
进博会是跨境贸易的风向标,区块链被视为核心技术突破口,也在正成为中国搭建全球贸易体系的重要底层技术...11月5日,代表中国积极融入经济全球化的第二届进博会拉开帷幕,50万采购...
日期:08-01
小米汽车造车「576辆小米汽车路测跑了540万公里!可以绕地球135圈」
3月28日晚,小米汽车SU7发布会正式上演。这是小米的第一辆车,也是雷军人生的最后一战。虽然官宣造车只有短短三年时间,但是小米汽车的投入力度是空前的。雷军表示,小米SU7在全国3...
日期:03-29
超有名的it企业_2010:盘点五大最“给力”的IT企业
  我们生活在一个需要“给力”的年代。   什么叫“给力”? 字面意思是“带劲”、“牛”、“让人眼前一亮”。   以下这五家公司不见得是2010年业绩报表最亮眼的公司,...
日期:07-25
Google推出富有创意的新顶级域名 .ing和.meme_谷歌免费域名
11月1日 消息:据国外媒体报道,日前Google注册局宣布推出两个富有创意的新顶级域名:.ing和.meme,预计将吸引大量注册。.ing Domain旨在吸引想以动词形式注册域名的用户。一些人...
日期:11-02
科大讯飞上半年业绩_预计上半年净利3.87-4.39亿元 科大讯飞即将发布“AI+学习”新品
  7月13日,科大讯飞发布2021年半年度业绩预告,预计2021年上半年归母净利为3.87亿元-4.39亿元,同比增长50%-70%。业绩预告中披露,科大讯飞业绩增长的主要原因是人工智能产业持...
日期:10-24
调查显示员工使用 AI 越多,就越担心自己的工作保障
12 月 20 日消息:在 2023 年初,OpenAI 的 ChatGPT 仅发布了一个多月,关于人工智能对劳动力影响的讨论才刚刚开始。快进到今天,我们难以不听到关于生成性 AI 将如何改变我们完成...
日期:12-20
终于透明了!广州新规:网约车驾驶员端需显示抽成比例_广州网约车收入怎么算
7月4日消息,经常坐网约车的朋友可能在和司机交谈过程中发现这样一个问题:自己车费没少讨,但司机却说自己没挣多少。如果你跟进一步做过比对,就会发现自己支付的相当一部分车费不...
日期:07-04
一条视频获赞1300W,抖音创作者迎来“开门红”?_抖音视频创作者收益
声明:本文来自于微信公众号卡思数据(ID:caasdata6),作者:岳遥,授权转载发布。2023年开年之际,抖音内容生态呈现出了怎样的新气象?相比2022年,是否有惊喜转折出现?我们先来看榜:乍一看...
日期:03-01
谷歌将在年度开发者大会上公布其人工智能技术的最新进展
谷歌计划宣布其生成式人工智能技术的一系列最新进展,其中包括推出一个名为palm 2的通用大型语言模型,该模型包含100多种语言,可以进行广泛的编码和数学测试,创意写作测试和分析...
日期:05-09
b站破千万的up主「千万爆款视频获涨粉30万,B站音乐区终迎“狠活儿”UP主?」
声明:本文来自于微信公众号 TopKlout克劳锐(ID:TopKlout),作者:白羊,授权转载发布。B站的音乐区已经很久没有“狠活儿”了在2018年B站第一届百大up主名单中,音乐区是入榜up主数量...
日期:02-08
只有中国人才能看懂的散装英文 网友:很有创意_散装英语的英文
近日,多地警方发布了一系列警犬宣传片,这些视频不仅展示了警犬的威武形象,更因其配上的搞笑英文“字幕”而在网络上迅速走红。这些字幕并非传统的英文翻译,而是一场英语与拼音的...
日期:06-06
江苏电信苏州新型城域网开通SRv6 vBRAS-vUP,绘云网融合SRv6全能力图谱「手机摄像头上的红点是啥」
通信世界网消息(CWW)近日,江苏电信在苏州新型城域网率先完成基于SRv6 vBRAS-vUP系统的固网语音业务商用,实现了基于SRv6技术体制的全业务的一跳直达和一站式开通。这是全国范围...
日期:09-09
苹果 iOS 17 或将大幅改进搜索、灵动岛、控制中心等功能_灵动ing
4月13日消息:在苹果于 6 月的 WWDC 上发布 iOS 17 之前,一位过去曾分享过准确信息的匿名人士透露了更新后可能带来的新功能,包括对搜索、灵动岛、控制中心等的改进。在 MacRum...
日期:04-13
周鸿祎试乘理想MEGA:后排有我迈巴赫的感觉
快科技3月22日消息,360董事长周鸿祎日前发布视频,测评了理想MEGA的空间表现。周鸿祎称,MEGA后座没有他想象中的那么宽,但是很舒服,有他迈巴赫的感觉了;第三排的座椅头枕很高,正好能...
日期:03-23
世界第八大奇迹!放假第一天兵马俑游客突破五万人:秦俑打上了保湿抗皱针
五一假日第一天,你是怎么过的?如果是外出旅行,恐怕感受到了今年的这股热度。据陕视新闻,4月29日,陕西西安,放假第一天秦始皇帝陵博物院从早上七点半开放,截止到中午一点兵马俑游客...
日期:04-30
realme真我GT5来了:骁龙8 Gen2 下月登场「realme 真我gt 5g高通骁龙888处理器」
快科技7月28日消息,realme即将发布真我GT5新机,realme在中国上海举行的China Joy 2023展会上设立了一个展台,确认了GT5系列的存在,同时透露GT5系列将搭载高通骁龙8 Gen2芯片。爆...
日期:07-28
方正数码_方正数码与浪潮信息签订亿级战略合作协议
成立于1998年9月,是中国领先的数字印刷、网站建设、数字出版解决方案供应商之一。该公司总部位于北京,并在全国拥有多家分支机构和公司。的主营业务包括数字印刷、网站建设、...
日期:05-29
shopee平台活动「Shopee宣布开启10.10超级品牌节」
10 月 8 日消息,Shopee近日宣布10. 10 超级品牌节正式拉开帷幕。Shopee携手Shopee Mall内海量品牌,为消费者提供商品和服务,进一步助力国货品牌把握出海机遇。据了解,Shopee于 2...
日期:10-09
微软Android手机收入达Windows手机5倍
新浪科技讯 北京时间5月28日上午消息,花旗分析师沃尔特·普里查德(Walter Pritchard)周五在一份报告中指出,微软通过HTC销售的每一部Android手机获得5美元收入。 业内人士估...
日期:07-28