您的位置:首页 > 互联网

ChatGPT等模型:到2026年,将消耗尽高质量训练数据_chat performance

发布时间:2023-11-27 17:08:47  来源:互联网     背景:

声明:本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区,授权转载发布。《麻省理工技术评论》曾在官网发表文章表示,随着ChatGPT等大模型的持续火热,对训练数据的需求越来越大。大模型就像是一个“网络黑洞”不断地吸收,最终会导致没有足够的数据进行训练。而知名AI研究机构Epochai直接针对数据训练问题发表了一篇论文,并指出,到2026年,大模型将消耗尽高质量数据;到2030年—2050年,将消耗尽所有低质量数据;到2030年—2060年,将消耗尽所有图像训练数据。(这里的数据指的是,没有被任何标记、污染过的原生数据)论文地址:https://arxiv.org/pdf/2211.04325.pdf事实上,训练数据的问题已经显现。OpenAI表示,缺乏高质量训练数据将成为开发GPT-5的重要难题之一。这就像人类上学一样,当你的知识水平达到博士级别时,再给你看初中的知识对学习毫无帮助。所以,OpenAI为了增强GPT-5的学习、推理和AGI通用能力,已建立了一个“数据联盟”,希望大面积搜集私密、超长文本、视频、音频等数据,让模型深度模拟、学习人类的思维和工作方式。目前,冰岛、Free Law Project等组织已加入该联盟,为OpenAI提供各种数据,帮助其加速模型研发。此外,随着ChatGPT、Midjourney、Gen-2等模型生成的AI内容进入公共网络,这对人类构建的公共数据池将产生严重污染,会出现同质化、逻辑单一等特征,加速高质量数据消耗的进程。高质量训练数据,对大模型研发至关重要从技术原理来看,可以把大语言模型看成“语言预测机器”, 通过学习大量文本数据,建立起单词之间的关联模式,然后利用这些模式来预测文本的下一个单词或句子。Transformer便是最著名、应用最广泛的架构之一,ChatGPT等借鉴了该技术。简单来说,大语言模型就是“照葫芦画瓢”,人类怎么说它就怎么说。所以,当你使用ChatGPT等模型生成文本时,会感觉这些文本内容的叙述模式在哪里见过。因此,训练数据的质量直接决定了大模型学习的结构是否准确。如果数据中包含了大量语法错误、措辞不当、断句不准、虚假内容等,那么模型预测出来的内容自然也包含这些问题。例如,训练了一个翻译模型,但使用的数据都是胡编乱造的低劣内容,AI翻译出来的内容自然会非常差。这也是为什么我们经常会看到很多参数很小,性能、输出能力却比高参数还强的模型,主要原因之一便是使用了高质量训练数据。大模型时代,数据为王正因数据的重要性,高质量的训练数据成为OpenAI、百度、Anthropic、Cohere等厂商必争的宝贵资源,成为大模型时代的“石油”。早在今年3月,国内还在疯狂炼丹研究大模型时,百度已经率先发布了对标ChatGPT的生成式AI产品——文心一言生。除了超强的研发能力之外,百度通过搜索引擎积累的20多年庞大的中文语料数据帮了大忙,并在文心一言的多个迭代版本中发挥重要作用,遥遥领先国内其他厂商。高质量数据通常包括出版书籍、文学作品、学术论文、学校课本、权威媒体的新闻报道、维基百科、百度百科等,经过时间、人类验证过的文本、视频、音频等数据。但研究机构发现,这类高质量数据的增长非常缓慢。以出版社书籍为例,需要经过市场调研、初稿、编辑、再审等繁琐流程,耗费几个月甚至几年时间才能出版一本书,这种数据产出速度,远远落后大模型训练数据需求的增长。从大语言模型过去4年的发展趋势来看,其年训练数据量的增速超过了50%。也就是说,每过1年就需要双倍的数据量来训练模型,才能实现性能、功能的提升。所以,你会看到很多国家、企业严格保护数据隐私以及制定了相关条例,一方面,是保护用户的隐私不被第三方机构搜集,出现盗取、乱用的情况;另一方面,便是为了防止重要数据被少数机构垄断和囤积,在技术研发时无数据可用。到2026年,高质量训练数据可能会用光为了研究训练数据消耗问题,Epochai的研究人员模拟了从2022年—2100年,全球每年产生的语言和图像数据,然后计算这些数据的总量。又模拟了ChatGPT等大模型对数据的消耗速率。最后,比较了数据增长速度和被消耗的速度,得出了以下重要结论:在当前大模型的高速发展趋势下, 到2030年—2050年将消耗尽所有低质量数据;高质量数据,极有可能在2026年就会消耗完。到2030年—2060年,将消耗尽所有图像训练数据;到2040年,由于缺乏训练数据,大模型的功能迭代可能会出现放缓的迹象。研究人员使用了两个模型进行了计算:第一个模型,通过大语言和图像模型两个领域实际使用的数据集增长趋势,再利用历史统计数据进行外推,预测它们何时会达到消耗峰值和平均消耗。第二个模型:预测未来每年全球范围内将产生多少新数据。该模型基于三个变量,全球人口数量、互联网普及率和平均每个网民每年产生的数据。同时研究人员使用联合国数据拟合出人口增长曲线,用一个S型函数拟合互联网使用率,并做出每人每年产数据基本不变的简单假设,三者相乘即可估算全球每年的新数据量。该模型已经准确预测出Reddit(知名论坛)每个月产出的数据,所以,准确率很高。最后,研究人员将两个模型进行相结合得出了以上结论。研究人员表示,虽然这个数据是模拟、估算出来的,存在一定的不确定性。但为大模型界敲响了警钟,训练数据可能很快成为制约AI模型扩展和应用的重要瓶颈。AI厂商们需要提前布局数据再生、合成的有效方法,避免在发展大模型的过程中出现断崖式数据短缺。‍本文素材来源麻省理工科技评论官网、Epochai论文,如有侵权请联系删除

chat performance

英特尔移动端显卡最新官方消息

上市3个月卖出600台, 降5万没人要, 你的爱车入坑了吗

chat performance

郭明錤iphone14消息


返回网站首页

本文评论
Cash App创始人被刺身亡,嫌疑人被捕:也是企业家,与被害人相识「cash是什么平台」
4月14日消息,当地时间周四,旧金山地区检察官证实,Cash App创始人鲍勃·李(Bob Lee)遇害案的嫌疑人已被逮捕,此人是湾区科技企业家尼玛·莫梅尼(Nima Momeni)。他将于周五受审。一汽...
日期:04-15
小红书看上「老红书」「小红书 看过的」
声明:本文来自于微信公众号 壹娱观察(ID:yiyuguancha),作者:厚码,授权转载发布。“50岁+”,这一关键词正被中老年博主写进小红书的笔记里。现居深圳的“Angel Z”是一位53岁辣妈,...
日期:10-16
2021年国庆上海车展「实探国庆假期上海4S店:看车人数不增反减,AITO问界热度依旧」
界面新闻记者 | 周姝祺 刘嘉欣界面新闻编辑 | 陈小同连续8天的小长假有望带来史上最火爆国庆黄金周,也让处于“金九银十”售车旺季的汽车品牌看到了这波流量,正通过多种促销手...
日期:10-05
共赴数智未来 中兴通讯举办第七届“创兴日”「中兴技术创新」
通信世界网消息(CWW)5月24至26日,以“创新·共超越”为主题的2023中兴通讯第七届年度“创兴日”活动在深圳举行,来自运营商、合作伙伴、高校机构、行业联盟的专家学者齐聚一堂,围...
日期:05-29
12306兑换高铁票需要多少积分「12306回应免费坐高铁:兑换车次有限制,积分需在有效期内兑换」
3月28日 消息:今日,#免费坐高铁#登上微博热搜。据悉,用户登陆12306应用程序,注册会员可以积分,积分为5倍的车票价格数字,而100积分价值1元,通过积分兑换可以免费乘坐高铁。经常做...
日期:03-28
Cerebras Systems与阿联酋Group 42签署价值1亿美元AI超级计算机协议「阿联酋科技巨头g42」
7月21日 消息:据路透社消息,人工智能芯片初创公司Cerebras Systems Inc.与阿布扎比的科技公司Group 42 Holding Ltd.合作,打造了据称是世界上最大的AI训练超级计算机,为企业提...
日期:07-21
直播电商“大考”在即,品牌和商家如何实现生意爆发式增长?「直播电商会成为电商行业的真风口、新常态吗?」
声明:本文来自于微信公众号新榜(ID:newrankcn),作者:Bamboo,授权转载发布。小米浴霸联网一年一度的电商大考就要来了。近日,各大平台纷纷启动招商,亮出压箱底的看家本事,打响了年终...
日期:10-01
OpenAI推出用户自定义版ChatGPT:可在商城自由交易_当使用openapi上传自定义监控指标成功时
快科技11月7日消息,Open AI最近在开发者大会上表示,将会允许用户构建自定义版ChatGPT,来完成特定的个人和专业任务。OpenAI称,用户能快速创建自己专用版本的ChatGPT,可以用于帮助...
日期:11-07
抖音公布动态表情显示专利「抖音展示违规表情包」
  天眼查App显示,8月26日,抖音视界有限公司申请的“动态表情显示方法、装置、电子设备及计算机可读存储介质”专利公布。  专利摘要显示,该方法通过响应接收动态表情的选择...
日期:08-27
真我GT5能跑满骁龙8 Gen2 网友神评:绝杀
快科技8月22日消息,真我GT5首发极客性能面板,这项功能引发关注。酷安一位网友表示,这项功能堪称是绝杀”。据悉,真我GT5的极客性能面板可以自定义CPU,你可以手动调整骁龙8 Gen2小...
日期:08-23
中兴U10S Pro 随身WiFi上市 自研国产芯 售价269元_中兴随身wifi5评测
10 月 31 日,中兴U10S Pro随身WiFi正式上市,搭载中兴自研国产芯,集小巧便携机身、精致外观、4G全 网通网络、高速率Wi-Fi6 技术、超长续航、灵活网络接入于一身,为用户带来便捷...
日期:10-31
苹果iPad Pro将升级OLED屏 入门款已准备就绪
据外媒报道,苹果公司预计会在明年推出采用OLED显示屏的iPad Pro,该产品线将从配置最高、售价也最高的iPad Pro开始。OLED显示屏是一种显示效果更好的屏幕,该升级将采用OLED...
日期:10-10
小米电视3s_小米电视3s无法开机
是小米公司推出的一款高端智能电视产品。它在外观、性能、功能等多个方面都有了明显的升级。首先,的外观更加精美。其采用了金属材质,金色的边框十分精美,整体低调奢华,让人一眼...
日期:05-30
机构:Q1全球可折叠手机出货达250万部 中国市场飙升117%_目前能折叠的手机价格大、高
据Counterpoint Research最新数据显示,根据销量计算,2023年第一季度全球可折叠智能手机出货同比增长64%,达到250万部。其中,中国市场同比飙升117%至108万台。Counterpoint表示,在...
日期:07-14
4.5亿美元!谷歌投了OpenAI的竞争对手!「谷歌创投」
最近一段时间,投资者对人工智能(AI)兴趣激增。近日,OpenAI的竞争对手Anthropic宣布获得了一轮4.5亿美元的融资,这轮融资得到了谷歌的支持。据悉,这还是自微软1月份投资OpenAI以来,...
日期:05-26
iPhone 15系列发售:Pro原色版最受欢迎,黄牛加价程度不及去年_苹果15pro颜色
9月22日早上8时,苹果iPhone 15系列新机正式开售。在上海南京东路苹果旗舰店,门外已经有百名消费者排起长队来取机,排队时长普遍超过20分钟。雷军小米8拍照亮点苹果南京东路店门...
日期:09-23
特斯拉4680电池什么时候量产「特斯拉4680电池将于2023年第一季度在柏林超级工厂生产」
IT之家 9 月 14 日消息,2020 年 9 月 23 日,特斯拉在电池日活动上正式发布了 4680 电池,并计划在今年正式投产。特斯拉表示,4680 电池的单体能量提高了 5 倍,整车续航里程可增加...
日期:09-27
甲骨文CEO埃里森与邻居上周末达成和解(甲骨文的老板埃里森)
  北京时间6月1日早间消息,甲骨文CEO拉里·埃里森(Larry Ellison)去年曾以邻居庭院中种植的红杉与槐树影响自家房屋景观为由,将其告上法庭,而根据知情人士透露的最新消息,双...
日期:07-28
摩西科技荣获CSIC最具创新之星,解读游戏化运营背后的成功秘诀
  雷军说过,“创业就是干别人没有干过的事情。” 詹姆斯·莫里斯也曾说:“可持续竞争的唯一优势来自于超过竞争对手的创新能力”。由此可见,对于企业而言,想要成为实力派,就要...
日期:12-08
婚闹堵门1小时 丈母娘吃2次救心丸 网友:讨红包也要有个度
结婚是人生中的一件大事,对于每个人来说都十分重要,希望自己的婚礼能够热闹而难忘。联想拯救者y9000与小新16pro在婚礼上,有时会添加一些仪式,如堵门仪式,旨在让婚礼更具气氛和热...
日期:04-11