您的位置:首页 > 互联网

OpenAI登月计划剑指超级AI!LeCun提出AGI之路七阶段,打造世界模型是首位

发布时间:2023-12-19 02:42:34  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

通用AGI,或许近在咫尺。

OpenAI下一步登月计划,就是实现人类期待已久的超级人工智能,而到达这一步的前提是——解决超级AI对齐问题。

就在前几天,首席科学家Ilya带头OpenAI超级对齐团队取了的实质性成果。他们发表的最新论文,首次确定了超级AI对齐的研究方向:

即小模型监督大模型。

实证表明,GPT-2可以用来激发GPT-4的大部分能力,能够达到GPT-3.5的性能。甚至还可以泛化到小模型失败难题上。

其中,官方博客的第一句便是:我们相信超级智能可能会在未来10年内出现。

再加上传闻中即将面世的GPT-4.5,以及或许会在明年诞生的GPT-5,OpenAI似乎已经准备好迎接超级人工智能到来了。

然而,在LeCun看来,超人AI的发展不会一蹴而就,而是要经历多个阶段逐渐完成。

第一阶段:学习世界运作方式

首先,是构建能像小动物一样学习世界运作方式的系统——可以观察环境并从中学习,为发展更高级的AI能力打下基础。而这也是AI进化的关键一步。

相比之下,如今的语言模型如GPT-4或Gemini,主要关注的还是文本数据,这显然远远不够。

LeCun经常嘲讽当前AI的一句话是,如今大模型的智力连猫狗都不如。甚至在他看来,通往AGI路上,大模型就是在走歪路。

一直以来,他坚信世界有一种世界模型,并着力开发一种新的类似大脑的AI架构,目的是通过更真实地模拟现实世界来解决当前系统的局限性,例如幻觉和逻辑上的缺陷。

这也是想要AI接近人类智力水平,需要像婴儿一样学习世界运作的方式。

这个世界模型的架构,由6个独立的模块组成:配置器模块、感知模块、世界模型模块、成本模块、短期记忆模块,以及参与者模块。

其中,核心是世界模型模块,旨在根据来自感知模块的信息预测世界。能够感知人在向哪移动?汽车是转弯还是继续直行?

另外,世界模型必须学习世界的抽象表示,保留重要的细节,并忽略不重要的细节。然后,它必须在与任务水平相适应的抽象级别上提供预测。

LeCun认为联合嵌入预测架构(JEPA)能够解决这个难题。JEPA支持对大量复杂数据进行无监督学习,同时生成抽象表示。

今年6月,基于世界模型的愿景,他又提出了一个全新架构I-JEPA。

谷歌pixel最新状况

论文地址:https://ai.meta.com/blog/yann-lecun-ai-model-i-jepa/

不过,LeCun更高层次的愿景留下了许多未解决的问题,例如关于世界模型的架构和训练方法的细节。

第二阶段:目标驱动且有保护措施的系统

其次,是构建目标驱动并在一定的保护措施下运作的机器。

这些保护措施将确保AI系统在追求目标时仍然安全可控。

第三阶段:规划与推理

随着AI系统的不断成熟,它们将发展出规划和推理的能力,从而在遵守安全规范的前提下,实现既定目标。

这将使AI系统能够基于对世界的理解做出更加明智的决策,并采取合适的行动。

第四阶段:分层规划

再进一步,AI系统将能够进行分层规划,从而大幅提升决策能力。

这将使AI系统更加高效地处理复杂任务和难题。

第五阶段:增强机器智能

随着AI的进化,这些系统的智能将从最初的老鼠提升至类似狗或者乌鸦的水平。

在此过程中,为确保AI系统保持可控和安全,将需要不断对其保护措施进行调整。

第六阶段:更广泛的训练与微调

当AI系统达到一定的智能水平时,就需要将它们放在不同环境和任务中接受训练,使其更加灵活,能够应对各种挑战。

随后,还需要对AI系统进行微调,以便在特定任务上表现出色。

第七阶段:超人类AI的时代

总有一天,我们开发的AI系统会在几乎所有的领域超越人类智能。

但这并不意味着这些系统具备情感或意识。只不过是在执行任务方面,会比人类做得更好。

同时,即使这些高级AI系统智力超群,它们也必须始终受到人类的控制。

根据LeCun之前提出的观点,这理论上是可行的:由于智力水平与主导欲望之间并无直接联系,而AI并不像人类那样具有天生的主导欲望。因此,AI或许会愿意为智力上不及它们的人类服务。

当然,这种情况在未来5年内不太可能出现。

LLM自我迭代,走向AGI

为了让超级AI系统能够迭代学习,持续完成任务并不断改进效果,当前的许多框架采用了可识别的过程。

类似于下图中的结构,包括反馈控制和强化学习。

另外,还可以采用一些附加功能,以最大限度地减少人工输入并增强流程自动化。

那么,上面展示的迭代学习系统是如何运行的?

首先,人类将广义定义的任务分配给智能体。

任务通常采取提示的形式,概述主要目标,例如,探索环境,并完成尽可能多的不同任务。

Planner(规划)模块以这个目标为条件,将目标分解为一系列可执行的、可理解的任务。

由于LLM已经在大量数据上进行了训练,充分了解智能体运行的环境,可以很好地支持目标分解。此外,还可以补充上下文来增强LLM的性能。

当Planner提供了一组派生的子任务后,Selector负责确定最合适的下一个子任务(满足先决条件,且能产生最佳结果)。

Controller的工作是生成当前子任务所需要的操作。然后,生成的操作被引入到环境中。

在这个过程中,使用Memory块检索最相似的学习任务,将它们集成到其正在进行的工作流中。

为了评估最近操作的影响,Critic会监视环境状态,提供反馈,包括识别缺点和失败原因等。

Descriptor块把环境和智能体的状态描述为文本,作为Critic的输入,然后,Critic为Planner提供全面的反馈,以协助进行下一次试验。

下面来看一下系统中每个模块的一些具体细节。

规划(Planner)

Planner负责组织整个任务,根据智能体的当前状态和水平来协调学习过程。

通常会假设基于LLM的Planner在训练中接触过类似的任务分解过程,但这个假设在这里并不成立。

因此,研究人员提出了一种方法:从环境手册文本中提取所有相关信息,总结成一个小尺寸的上下文,并连接到提示中。

在现实生活中的应用程序中,智能体会遇到各种不同复杂程度的环境,这种简单而有效的方法,可以避免频繁为新任务进行微调。

Planner模块与VOYAGER和DEPS在某些方面类似。

VOYAGER使用 GPT-4作为自动课程模块,试图根据探索进度和智能体的状态提出越来越难的任务。它的提示包括:

在设定约束条件的同时鼓励探索;

当前智能体的状态;

以前完成和失败的任务,

来自另一个GPT-3.5自问答模块的任何其他上下文。

然后,VOYAGER输出要由智能体完成的任务。

DEPS在不同环境中使用CODEX、GPT-4、ChatGPT和GPT-3作为LLM规划器,提示内容包括:

强大的最终目标(例如,在Minecraft环境中获得钻石);

最近生成的计划;

对环境的描述和解释。

为了提高计划的效率,DEPS还提出了一个状态感知选择器,从规划器生成的候选目标集中,根据当前状态选择最近的目标。

在复杂的环境中,通常存在多个可行的计划,优先考虑更接近的目标可以提高计划效率。

为此,研究人员使用离线轨迹训练了一个神经网络,根据在当前状态下完成给定目标所需的时间步长进行预测和排名。然后,Planner与Selector协作生成一系列要完成的任务。

控制(Controller)

Controller的职责是选择下一个动作来完成给定的任务。

Controller可以是一个LLM(例如VOYAGER),也可以是深度强化学习模型(例如DEPS),根据状态和给定任务生成操作。

VOYAGER在交互式提示中使用GPT-4来扮演控制器的角色。

VOYAGER、Progprompt和CaP选择使用代码作为操作空间,因为代码可以自然地表示时间扩展和组合操作。在VOYAGER中生成代码的提示包括:

代码生成动机指南;

可用的控制基元API列表及其描述;

从记忆中检索到的相关技能或代码;

上一轮生成的代码、环境反馈、执行错误、Critic输出;

当前状态;

思维链提示在代码生成前进行推理。

记忆(Memory)

人类的记忆一般可以分为短期记忆和长期记忆:

短期记忆存储用于学习和推理等任务的信息,可容纳大约7件物品,持续约20-30秒。

所有基于LLM的终身学习方法,都是通过上下文学习来使用短期记忆,而上下文学习受到LLM上下文长度的限制。

长期记忆用于长时间存储和检索信息,可以作为具有快速检索功能的外部向量存储来实现。

VOYAGER通过添加/检索从外部向量存储中学习到的技能,从长期记忆中受益。

如下图所示,上半部分描述了VOYAGER添加新技能的过程,下半部分表示技能检索。

当Critic验证代码可以完成任务时,使用GPT-3.5生成代码的描述。

然后,技能将被以键值对的形式(技能描述和代码)存储在技能库中。

当Planner生成一项新任务时,GPT-3.5会生成新的描述,然后从技能库中检索前5个相关技能。

添加长期内存可以显著提高性能。上图展示了技能库对VOYAGER的重要性。

Controller同时利用短期记忆和长期记忆,以生成和完善其策略。

评论(Critic)

Critic也是一个基于LLM的模块,它对先前执行的计划进行点评,并提供反馈。

Critic可以采用GPT-4,利用奖励信号、当前轨迹以及持久记忆来生成反馈,这种反馈比标量奖励提供了更多的信息,并存储在内存中,供Planner用于优化计划。

描述(Descriptor)

在基于LLM的终身学习中,Planner的输入和输出是文本。

虽然很多环境(如Crafter)是基于文本的,但有一些其他环境,会返回2D或3D图像的渲染,或者返回一些状态变量。

这时,Descriptor就可以充当中间的桥梁,将其他模态转换为文本,并将它们合并到LLM的提示中。

自主AI智能体

以上主要讨论了将基础模型与持续学习相结合的最新研究,这是实现AGI的重要一步。

而最近的AutoGPT和BabyAGI等几个工作又带给人们新的启发。

这些系统接受任务后,将任务分解为子任务,自动进行提示和响应,并重复执行,直到实现提供的目标。

他们还可以访问不同的API,或者访问互联网,大大扩展自己的应用范围。

AutoGPT可以访问互联网,并能够与在线和本地的应用程序、软件和服务进行交互。

为了实现人类给出的更高层次的目标,AutoGPT使用一种称为Reason and ACT (ReACT)的提示格式。

ReACT使智能体能够接收输入、理解并采取行动、根据结果进行推理,然后在需要时重新运行该循环。

由于AutoGPT可以自己提示自己,所以可以在完成任务的同时进行思考和推理,寻找解决方案,丢弃不成功的解决方案,并考虑不同的选择。

BabyAGI是另一个最近推出的自主AI智能体,上面是它的流程图。它有三个基于LLM的组件:

任务创建智能体:提出了一个任务列表(类似于Planer);

优先级智能体:尝试通过LLM提示(类似于Selector)确定任务列表的优先级;

执行智能体(类似于Controller):执行具有最高优先级的任务。

AutoGPT和BabyAGI都使用向量数据库来存储中间结果并从经验中学习。

局限性和挑战

不过,大语言模型(LLM)在终身学习过程中仍然存在一些问题。

首先就是模型有时会出现幻觉、捏造事实或安排不存在的任务,而且在一些研究中,将GPT-4换成GPT-3.5会严重影响性能。

其次,当大语言模型扮演规划者(Planner)或评论者(Critic)时,它们的表现可能不够准确。——比如评论者可能提供错误的反馈,而规划者可能重复同样的计划。

另外,大语言模型的上下文长度限制了它们的短期记忆能力,这影响了模型保存详细的过往经验、具体指令和控制原语API。

最后,多数研究假设大语言模型已经掌握了进行终身学习所需的全部信息,但这种假设并不总是成立。

所以研究人员为智能体提供互联网访问(如AutoGPT),或提供文本材料作为输入上下文(如本文介绍),这些方法对之后的研究提供了帮助。


返回网站首页

本文评论
上海漫展惊现“女菩萨” 现场还真有人跪拜「上海漫展女拍摄角度」
上海CP29漫展于5月3日落幕,其中最让人惊讶的是一位女子COS成“观音菩萨”,她的扮相十分庄严,手持玉净瓶,还散发出佛光,吸引了众多漫迷前来膜拜。美国卡车自动驾驶索尼fx30新品发...
日期:05-04
5月19日中国概念股涨跌互现 网秦大跌15.37%_5.19股市行情
腾讯科技(金铎)北京时间5月20日消息,美股周四收高,职业社交网络LinkedIn上市首日股价翻了一倍有余,成为当天最大的亮点。中国概念股涨跌互现,网秦大跌15.37%。当天收盘,道琼斯工业...
日期:07-28
微软 Win11 存在文件资源管理器/上下文菜单性能缓慢 Bug
  11 月 3 日消息,据 Windows Latest 报道,微软 Windows 11 正式版于 10 月 5 日开始推出,它带有几个已知的问题,主要与打印服务有关。   正如此前所报道的那样,微软已经确...
日期:07-17
youtube advanced魔改「博主用Adobe Firefly在线魔改网红球 YouTube播放量超330万」
12月5日 消息:11月30日,YouTube博主“Greenskull AI”在其频道发布了一段令人惊叹的视频,通过Adobe Firefly在线进行魔改,成功擦除拉斯维加斯的网红球,展示了该平台强大的AI功能...
日期:12-06
512GB+独显芯片,骁龙8+旗舰仅2338元,流畅使用五年
对于大部分用户来说,手机只要流畅好用即可,一款手机要想做到使用寿命长,性能强悍自然不可缺少,只有旗舰机才能具备三五年以上不卡。如果大家不知道如何选择,下面给大家推荐一款,它...
日期:10-15
需求不足 消息称特斯拉上海工厂将主动减产20%_特斯拉上海工厂量产了吗
图注:特斯拉上海工厂iphone12pro max增加了什么misfitshine2使用说明小米civi前置柔光灯怎么开凤凰网科技讯 北京时间12月5日消息,知情人士称,特斯拉公司计划降低其上海工厂的...
日期:12-08
罗永浩,为什么一直抓着东方甄选不放?_新东方的罗永浩
“东方甄选可能是直播电商在中国诞生后,我见过的最不公平、最荒唐、最欺负压榨年轻人的现象级公司。”12月16日晚间,俞敏洪和董宇辉一起出面直播后,罗永浩发文炮轰东方甄选。一...
日期:12-17
詹姆斯获得得分王「加冕NBA历史得分王!詹姆斯耳机上印有38388:金字闪闪发光」
2月8日在湖人与雷霆队交锋中,随着一记后仰干拔命中,勒布朗詹姆斯超越天勾”贾巴尔,加冕NBA历史得分王,赛后他将纪录刷新到38390分。据悉,赛前的记分牌显示,詹姆斯(38352)和贾巴尔(383...
日期:02-08
ARM大变脸 要对高通“赶尽杀绝”:不给授权开发CPU「高通收购ARM」
和NVIDIA的联姻失败后,ARM公司似乎正考虑大幅调整自己的经营方式。日前,高通在反诉ARM的文件中提到,后者酝酿在2024年后(2025年起)不再给半导体公司颁发完整的IP授权,而是直接给OE...
日期:11-01
首次!我国科考队国庆日成功登顶世界第六高峰:将架设自动气象站
10月1日消息,今日上午9时15分,我国18名科考队员成功登顶世界第六高峰卓奥友峰。2015年全国电子商务创新推进大会在京举办的活动这是科考队首次登顶珠峰以外的8000米以上高峰,标...
日期:10-01
天玑920性能排行「天玑9200 称霸安卓阵营」
安兔兔跑分已经公布了2023年5月份的安卓手机性能排行榜,其中iQOO Neo8Pro首发搭载联发科天玑9200 的芯片,在跑分中获得了惊人的135万高分,成为安卓旗舰性能的佼佼者。联发科天...
日期:06-03
美股周四:苹果三连涨继续冲击3万亿美元市值,维珍银河跌超10%「美股苹果股价实时价格」
6月30日消息,美国时间周四,美股收盘主要股指涨跌不一。数据显示美国经济强劲,支撑了对美联储今年将有再加息两次空间的猜测。道琼斯指数收于34122.42点,上涨269.76点,涨幅0.80%;标...
日期:06-30
这些字儿也太太太太太太难认了,AI能不能拯救我?
  春节长假正式进入倒计时,各位小伙伴是不是已经盘算好了去哪里一浪?你是回到青山绿水的家乡被“催”,还是在灯红酒绿的都市里找“堵”?   但要说这外出旅行,最尴尬的事情...
日期:06-05
1分钟看完中国电信5G创新合作大会亮点(中国电信5g发布会)
  摘要:中国电信带你看看5G新时代   Hello 5G 赋能未来   中国电信5G创新合作大会   于4月26日在深圳五洲宾馆隆重召开   大会亮点纷呈   1   中国电信集团...
日期:05-18
LG新能源正开发磷酸铁锂电池 能量密度或比宁德时代竞品高
2月21日消息,据外媒报道,目前,韩国电池制造商LG新能源(LG Energy Solution)正在开发电动汽车用磷酸铁锂(LFP)电池。消息人士称,该公司的目标是使这款电池的性能超过其竞争对手宁德时...
日期:03-01
确定不会降频 苹果正在内测iOS 17.0.3修复15 Pro过热问题_ios15太烫了
快科技10月4日消息,据之前报道,苹果公司发布声明表示已经发现一些可能导致iPhone15系列手机过热的原因,主要是由于一些第三方软件更新导致的系统过载所引起,除此之外还有一些操...
日期:10-04
特斯拉model y的销量「特斯拉Model Y再次成为欧洲月销量最高车型」
12月30日消息,据国外媒体报道,在柏林超级工厂投产,所生产的Model Y开始大量交付之后,特斯拉Model Y在欧洲市场的交付能力明显增强,交付量也不断提升,在9月份成为了欧洲市场销量最...
日期:12-30
视频号做IP的四种硬核赚钱玩法_视频号做ip的四种硬核赚钱玩法是真的吗
声明:本文来自于微信公众号见实(ID:jianshishijie),作者:见实,授权转载发布。“微信是互联网时代的身份证,视频号就是互联网时代的个人名片。”十点读书副总裁廖仕健在此前一次面...
日期:11-03
即将发布!小米14、14 Pro马上见 卢伟冰:准备去工厂打螺丝_小米14ultra
快科技10月22日消息,首款澎湃OS手机,加上最完美徕卡镜头,让小米14系列热度高涨,未发先火。今日,卢伟冰发微博表示:准备出趟长差,回来后有可能直接去工厂为小米14系列打螺丝”。值得...
日期:10-23
华安证券董事长章宏韬:以文化“软实力”提升发展“高质量”_华安证券企业文化
  证券公司董事长 谈文化建设与高质量发展   华安证券栉风沐雨走过了不平凡的30年,曾经辉煌、一度陨落到再次崛起,公司文化之路也经历了三个阶段和三个层次,形成了以使命...
日期:04-28