您的位置:首页 > 互联网

OpenAI前员工预测:2027年AGI降临!GPT智商飙升,4年从幼儿园蹿到高中生

发布时间:2024-06-06 11:40:22  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

苹果14pro和华为mate50pro哪个值得买

【新智元导读】最近,OpenAI的一位前员工发表了一篇165页的超长博文,对AI发展的未来做出了一系列预测。文章的核心观点可以概括成一句话:人类很可能在2027年实现AGI。

AGI到底是科技公司画的大饼,还是可预测的未来?

几天前,Anthropic一名25岁的高管在博客上发文,表示自己已经准备好了3年后退休,让AI取代自己的工作。

最近,OpenAI前员工的一篇博客文章也有类似的观点。

他不仅认为AGI很可能实现,而且奇点预计就在2027年。

文章作者名为Leopold Aschenbrenner,于2023年入职OpenAI超级对齐团队,工作了1年6个月。

Aschenbrenner认为,到2027年,大模型将能够完成AI研究人员或工程师的工作。

他的论据也很简洁直观——你不需要相信科幻小说,只需要看到图上的这条直线。

画出过去4年GPT模型有效计算量的增长曲线,再延伸到4年后,就可以得出这个结论。

距离GPT-4发布已经过去了一年多的时间,包括Gary Marcus和Yann LeCun在内的很多人都不再对模型的Scaling Law深信不疑,甚至持否定态度。

虽然我们看起来正在碰壁,但Aschenbrenner提醒我们:往后退一步,看看AI已经走了多远。

直觉上,我们可以将模型能力类比为人类的智能水平,从而衡量AI能力的进步:从2019年学龄前儿童水平的GPT-2,到2023年聪明高中生水平的GPT-4,OpenAI只用了4年。

用4年从学龄前读到高中,是人类智力发展速度的3倍不止。

GPT-2只能写出一个半连贯的段落,几乎不能顺利地从1数到5。在文章总结任务中,生成的结果只比随机选3个句子稍微好一点。

GPT-3能生成更长、逻辑更一致的段落,具备了少样本学习能力,还可以完成一些基本的算术或代码任务。

GPT-4不仅可以思考和推理数学问题,还能编写复杂的代码并迭代调试。语言能力也是飞跃性的提高,不仅能在更长的文本中实现逻辑和内容的一致,也能掌握各种复杂话题。

在所有测试中,GPT-4都能击败绝大多数高中生,包括AP和SAT分数。

从基准测试的角度衡量,可以看到下面这张图。

根据Contextual AI去年7月发布的研究结果,AI在语言理解、阅读理解、文字细微差异的解释、图像识别等方面的能力都已经超过了人类表现。

预测性推理、一般性知识测试和解决数学问题等任务上也与人类水平接近。

此外也可以看出,在模型能力增长得越来越快的同时,基准测试愈发捉襟见肘。

过去需要几十年的时间才能达到饱和的基准测试,现在只需要几个月。

2020年,MMLU测试发布,相当于高中和大学的所有最难考试的水平,研究人员希望它可以经得起时间考验。

结果仅仅三年后,LLM就几乎解决了这个测试,像GPT-4和Gemini这样的模型可以获得超过90%的评分。

数学测试也是一样的趋势。

2021年MATH基准发布时,SOTA模型只能正确回答约5%的问题。

当时很多研究者都认为,算法方面的根本性突破才能提升模型的数学能力,未来几年能取得的进展非常微小。

2021年,研究人员对模型未来在MATH数据集上的表现给出了非常悲观的预测

然而,又一次超乎所有人的想象。2022年一年的时间内,模型准确率从5%上升到50%,最近的SOTA可以达到90%。3年前公认难度很高的基准测试,很快饱和。

基准测试似乎也无法跟上模型的速度了。

为了更严谨地评估深度学习的发展速度和趋势,作者使用了OOM指数,即计算数量级(order of magnitude)。

不仅要考量模型的算力和算法效率,作者还引入了一种新的概念,解开收益(unhobbling gains)。

算力规模

刚刚结束的ComputeX大会上,英伟达、AMD纷纷宣布了芯片年更计划。

这说明了什么?大模型性能呈指数级增长,对算力需求也在不断放大。

而在微软Build大会上,CTO Kevin Scott更是用海洋动物形象地阐述了,OpenAI模型进阶对算力的吞噬之极。

提到算力增长,很多人的第一反应会认为,这是摩尔定律的延伸。

然而作者指出,事实并非如此。AI硬件的改进速度远远快于摩尔定律。

大模型时代来临前,即使摩尔定律处于鼎盛时期,每10年也仅有1-1.5个OOM的增长。

但现在,每年都有0.6个OOM的增长,比曾经摩尔定律的5倍还多。

Epoch AI对著名深度学习模型的训练算力进行估算

以GPT系列为例,GPT-2到GPT-3实现了设备的过渡,从较小的实验设备变成了数据中心,一年内增长了2个OOM。

GPT-4延续了这种戏剧性增长,而且从OpenAI囤积芯片的动作来看,这个增长速度会逐渐演变为长期趋势。

这种庞大的增长,并不能主要归因于摩尔定律,而是投资算力的热潮。

曾经,在一个模型上花100万美元是令人发指的想法,没有人会接受;但现在,这只是科技巨头囤芯片、训模型的零头。

过去一年里,科技巨头们谈论的话题已经从100亿美元计算集群转向1000亿美元集群,再变成万亿美元集群上的竞争。

每隔六个月,董事会的计划里,就会增加一个0。

作者预估,在这个十年结束之前,将有数万亿美元投入到GPU、数据中心和电力建设中。为支持AI的发展,美国至少将电力生产提高数十个百分点。

随着AI产品收入的快速增长,谷歌、微软等公司在2026年左右的年收入可能达到1000亿美元。

这将进一步刺激资本,到2027年,每年的AI投资总额可能超过1T美元。

时间线再拉远,到2028年,单个训练集群就需要耗资千亿美元,比一个国际空间站还贵。

而到本世纪末,一个集群就能吞掉1T美元,每年产出上亿个GPU,AI所需电力占美国发电总量的百分比,将从现在的不到5%上升到20%。

算法效率

对算力的疯狂投资带来的惊人收益是非常明显的,但算法进步的驱动力很可能被严重低估了。

比如,很少有人关注到模型推理成本的大幅下降。

以MATH基准测试为例,过去两年内,从Minerva到最新发布的Gemini1.5Flash,在MATH上取得50%准确率(一个不喜欢数学的计算机博士生可以得到40%)的推理效率提高了将近3个OOM,也就是1000倍的效率提升。

虽然推理效率不等同于训练效率,但这个趋势可以表明,大量的算法进步是可行的,而且正在发生。

从长期趋势来看,算法进展的速度也相当一致,因此很容易根据趋势线做出预测。

回顾2012年-2021年期间ImageNet上的公开算法研究,可以发现,训练相同性能模型的计算成本以近乎一致的速度下降,每年减少约0.5个OOM,而且每种模型架构都是如此。

虽然LLM的团队一般不会公开算法效率相关的数据,但根据Epoch AI的估算,2012年-2023年期间,每年算法效率的收益也约为0.5个OOM,也就是在8年时间里提升了1万倍。

解开收益

相比算力和算法效率,解开收益带来的提升更加难以量化。

所谓解开收益,是指某些情况下模型的原始能力被阻碍了,而通过简单的算法改进可以解锁和释放这些潜在能力。

虽然它也是一种算法改进,但不仅仅是在已有范式内提升训练效果,而是跳出训练范式,带来模型能力和实用价值的跃升。

比如基础的语言模型经过了RLHF,才变成真正可用的产品。InstructGPT论文的量化结果显示,根据人类评分者的偏好,有RLHF的小模型相当于非RLHF的大100倍的模型。

再比如,近年来被广泛使用的CoT可以为数学或推理问题提供10倍多的有效计算能力提升。

上下文长度的增加也是如此。从GPT-3的2k tokens、GPT-4的32k,到Gemini1.5Pro的1M+,更长的上下文可以解锁更多的用例和应用场景。

训练后改进(post-training improvment)带来的收益也不容忽视。OpenAI联创John Schulman表示,与GPT-4首次发布时相比,当前的GPT-4有了实质性的改进,这主要归功于释放潜在模型能力的后期训练。

Epoch AI进行的一项调查发现,在许多基准测试中,这类技术通常可以带来5-30倍的有效计算收益。

METR(一个评估模型的非营利组织)同样发现,基于相同的GPT-4基础模型,解开收益非常可观。

在各种代理任务中,仅使用基本模型时性能只有5%,经过后期训练可以达到20%,加上工具、代理脚手架和更好的后期训练,可以达到今天的近40%。

与算力和算法效率带来的单一维度的扩展不同,解开收益能够解锁模型能力的巨大可能性,带来阶梯式、不拘一格的进步。

想象一下,如果AI可以使用电脑,有长期记忆,能针对一个问题进行长期思考和推理,而且具备了入职新公司所需的上下文长度,它会有多么强悍的能力?

算力、算法效率、解开收益叠加

2027年,取代所有认知工作

综合考虑算力、算法效率与解开收益这三个方面的叠加,GPT模型从第2代到第4代,大致经历了4.5-6个OOM的有效计算扩展。

此外,从基本模型到聊天机器人,相当于约2个OOM的解开收益。

基于这个发展速度,数一数OOM,未来4年我们可以期待什么?

首先,随着计算效率提高,迭代速度会越来越快。假设GPT-4训练花了3个月的时间,到2027年,领先的AI实验室将能够在一分钟内训练一个GPT-4级别的模型。

而且,由于解开收益的存在,我们不能仅仅是想象一个非常聪明的ChatGPT,还需要把它看成一个非常智能的、能独立工作的Agent。

到2027年,这些AI系统基本上能够自动化所有认知工作,或者说是所有可以远程进行的工作。

但是作者同时也提醒道,这其中有很大的误差范围。如果解开收益逐渐停滞,或者算法的进展没能解决数据耗尽的问题,就会推迟AGI的来临时间。

但也有可能,解开收益释放了模型更大的潜能,让AGI的实现时间比2027年更早。

虽然这篇文章有比较全面的论据,但2027年实现AGI的结论还是引发了不少网友的质疑。

南金纸生产工艺

将GPT-4的智力水平类比成聪明的高中生,很难让人相信。

也没有谈到一些关键问题,比如当前LLM最大的挑战之一——幻觉,这也是AI实现自动化工作的巨大障碍。

有人指责作者,将曲线外插和巨大的误差范围包装成一份技术分析。

也有人指出,文中经常提及的有效计算是一个非常模糊的概念,没有进行严谨准确的定义。

抛开2027年这个颇有噱头的结论,作者的论证过程至少可以给我们一个启示——很多情况下,AI的发展速度会超出所有人的想象。

GAN网络从2014年到2018年的进展

作者简介

Leopold Aschenbrenner本科毕业于哥伦比亚大学,大三时入选Phi Beta Kappa学会,并被授予John Jay学者称号。

19岁时,以最优等成绩(Summa cum laude)毕业,作为毕业生代表在典礼上致辞。

本科期间,他不仅获得了对学术成就授以最高认可的Albert Asher Green奖,并且凭借着Aversion to Change and the End of (Exponential) Growth一文荣获了经济学最佳毕业论文Romine奖。

Leopold Aschenbrenner来自德国,现居风景优美的加利福尼亚州旧金山,志向是为后代保障自由的福祉。

他的兴趣相当广泛,从第一修正案法律到德国历史,再到拓扑学,以及人工智能。目前的研究专注于实现从弱到强的AI泛化。

他最近离开OpenAI后计划创办一家AGI领域的投资公司,已经获得了Stripe创始人Collison兄弟以及GitHub前CEO Nat Friedman的投资。


返回网站首页

本文评论
真我v11简介「真我11 Pro+正式发布1999元起售」
5月10日消息,真我realme今日正式推出越级影像旗舰——真我11系列,包括真我11 Pro+、真我11 Pro和真我11三款产品。真我11 Pro+将于5月15日10点在全渠道正式开售,起售价1999元。...
日期:05-11
网信办:整治利用生成式AI制作发布涉未成年人有害信息行为
6月27日 消息:中央网信办发布《关于开展“清朗·2023年暑期未成年人网络环境整治”专项行动的通知》称,即日起,开展为期2个月的“清朗·2023年暑期未成年人网络环境整治”专项...
日期:06-27
蚂蚁、百度联合投资AIGC赛道,生数科技首轮融资后估值1亿美金|融资快讯
(图片来源:unsplash)ChatGPT引发生成式 AI(AIGC)全球热潮下,蚂蚁、百度等国内科技巨头蠢蠢欲动,出手孵化和投资AIGC赛道。苹果13pro官网为什么没货苹果14售价5999钛媒体App独家获悉...
日期:06-19
智见焦点|英伟达携H200再次席卷AI界 一文看懂AI“军火商”的大动作_英伟达hgx a100
出品|网易科技《智见焦点》栏目作者|赵芙瑶“AI军火商”又有大动作了!在算力紧缺、H100被疯抢、热炒之时,北京时间11月13日晚间,英伟达带着NVIDIA H200 Tensor Core GPU(图形处理...
日期:11-14
除了蔚来,大多数车企都给黑客赎金了_蔚来汽车背后的投资人
出品丨虎嗅汽车组作者丨周到编辑丨张博文头图丨视觉中国每当有好事临近,总会有坏事前来添堵。12月20日,蔚来首席信息安全科学家、信息安全委员会负责人卢龙在该公司官方APP发...
日期:12-22
苏宁易购双11:全国门店客流同比提升6成,Z世代消费者增长115%_苏宁易购2020双十一成交额
11月1日消息,苏宁易购发布“电器新世代消费观察”数据显示,10月20日-11月1日,苏宁易购全国门店客流同比提升6成,Z世代消费者增长115%。其中,洗烘一体机、全屋净水、中央空调销售...
日期:11-01
性价无敌!卢伟冰:2024年顶级性能手机的最优解是Redmi K70 Pro
快科技12月4日消息,小米集团卢伟冰表示,Redmi K70 Pro以极致的AI性能、第二代2K中国屏、质感、闪电快拍相机和3299元的极致性价比,获得用户的认可和口碑。2024年,你如果需要一部...
日期:12-05
知乎资本构成_知乎注册资本增加至3.8亿美元,一年内增加近五成
  1月3日消息 天眼查数据显示,2019年12月31日,知乎的相关运营主体智者四海(北京)技术有限公司发生工商变更,注册资本由原来的3.3.亿美元新增至现在的3.8亿美元,增幅为15.15%...
日期:09-03
微软宣布放弃Win10后出现意外一幕:用户变得更多了!_微软放弃windows7
快科技6月4日讯,来自StatCouters的报告显示,截至5月份,Win10的最新份额达到71.9%。Windows 11则是22.95%,比4月份略有下滑。合计来看,Windows用户中,多达94.85%已经升级到Win10或W...
日期:06-04
女研究生养猫反向将自己关进笼子 网友:到底谁是宠物?_研究生宿舍养猫行不
近日,重庆一名研究生女生的举动引起了广泛关注。她为了给自家的宠物猫提供更大的活动空间,竟然采取了一种出奇不意的方式,让人大跌眼镜。这名研究生女生在校外租了一房子,以便更...
日期:10-12
三星Galaxy S21系列将采用高通新指纹识别技术 速度快了1倍_三星s21是指纹解锁吗
  三星将于1月14日举行发布会,而此次发布会的重磅产品无非就是Galaxy S21系列。而Galaxy S21系列在疫情期间解锁方面,将比苹果更加有优势。据外媒报道,去年12月中旬,有知名业...
日期:07-10
昆仑万维要收购一起开发“天工大模型”的奇点智源 追风口能手
【】6月15日消息,昆仑万维发布公告,旗下控股子公司Star Group Interactive Inc.(以下简称“Star Group”)拟发股收购Singularity AI Technology Limited(以下简称“Singularity A...
日期:09-24
SteinDreamer:改进的文本到3D生成技术 速度更快、纹理结构更精细_stl文件编辑软件3d
划重点:- 小米mix哪一款是滑盖小米平板5pro128G够用吗雅迪高续航...
日期:01-08
百度智能云人工智能精英培训班招生简章_百度人工智能高端班
  根据《国务院关于印发新一代人工智能发展规划的通知》,推动人工智能科技兴国战略,百度已经构建了完整的人工智能生态体系。   据猎聘发布《2019年中国AI&大数据人才就...
日期:04-02
跳槽已经不划算了!美企开始降低新员工薪资_跳槽已经不划算了!美企开始降低新员工薪资怎么办
8月23日消息,在美国,员工们开始重新评估跳槽对经济收益的影响,因为经过多年的大幅加薪后,新员工的薪酬开始减少。近年来,由于企业竞相招聘以填补疫情引发的劳动力短缺,员工的工资...
日期:08-23
中国科学院大学团队摘取CCF BDCI综合特等奖 百度飞桨绽放技术实力_CCF优秀博士学位论文奖
  1月23日,由中国计算机学会(CCF)主办,CCF七大专委会、教育部易班发展中心、长沙市科技局、长沙高新区管委会、湖南大学、数联众创共同承办的2020 CCF大数据与计算智能大赛...
日期:07-10
Redmi K60配置曝光 搭载无线充电+骁龙8 Plus「redmi支持无线充电的手机」
中关村在线消息:今日微博博主曝光了Redmi K60的相关配置信息,新机将搭载新一代骁龙8 Plus处理器,普通版支持67W有线充电以及30W无线充电,Pro版本支持120W快充以及30W无线充电。...
日期:10-09
一淘网领投20亿为站外B2C引流 淘宝联盟对外开放(一淘社交电商交易平台)
对于电子商务企业来说,人气和流量至关重要。8月16日,中国最大的购物搜索引擎一淘网旗下“淘宝联盟”在北京举办了中国电子商务领域首届B2C商家与站长联盟的“武林大会”,并宣...
日期:07-22
京东零售开启采销单元组织变革:取消事业群 精简汇报层级「京东采销模式」
凤凰网科技讯 4月11日消息,据接近京东人士透露,京东零售启动采销单元组织变革,取消事业群这一层级,将事业群变更为事业部,原事业群负责人担任事业部负责人,原事业群下的统管诸多商...
日期:04-11
埃安 y pio「埃安Hyper率先搭载ADiGO PILOT:支持极限空间泊车、一键召唤接驾」
快科技5月14日消息,ADiGO PILOT超级泊车日前获得德国莱茵TUV颁发的ASPICE CL2(汽车软件过程改进及能力评定2级)评估认证证书,以及SGS颁发的ISO 26262 ASIL B COMPLIANT(符合ISO 2...
日期:05-14