您的位置:首页 > 互联网

三模啥意思「三模联盟,谷歌DeepMind缔造终身学习智能体」

发布时间:2024-08-07 17:22:40  来源:互联网     背景:

声明:本文来自于微信公众号 新智元,作者:新智元,授权转载发布。

打造终身学习智能体,是研究界以来一直追求的目标。最近,帝国理工联手谷歌DeepMind打造了创新联合框架扩散增强智能体(DAAG),利用LLM+VLM+DM三大模型,让AI完成迁移学习、高效探索。

为了让AI实现终身学习,帝国理工、谷歌DeepMind竟动用了三大基础模型!

大模型+视觉语言模型+扩散模型三模并用,构建了全新框架——扩散增强智能体(DAAG)。

DAAG的诞生,就是让具身智能体进行迁移学习、高效探索。

最新框架利用了后见之明经验增强(Hindsight Experience Augmentation)技术,让扩散模型以时间和几何一致的方式转换视频。

三模是什么东西

让其与目标指令对齐,从而对智能体过去经验进行重新标记。

论文地址:https://arxiv.org/pdf/2407.20798

大模型在无需人类监督情况下,自主协调这一过程,使其非常适合终身学习场景。

经过一系列实验,结果表明,DAAG改进了奖励检测器的学习、过去经验的迁移以及新任务的获取。

这些都是开发高效终身学习智能体的关键能力。

三模有用吗

无需人类监督,AI终身强化学习

一直以来,具身AI的训练数据极其稀缺,特别是在强化学习场景中尤为突出。

因为这类智能体需要与物体环境进行互动,而传感器和执行器成为了主要瓶颈。

然而,克服这一挑战需要开发出,能够从有限经验中高效学习、适应的智能体。

对此,研究人员假设,具身智能体可以通过利用过去经验,有效探索,并在任务之间转移知识,实现更高数据搬运效率。

即便在没有外部奖励的情况下,他们希望让智能体可以自主设置、评分子目标,并能重新利用之前任务经验,加速新任务学习。

因此,最新研究中,团队成员使用预训练的基础模型Gemini1.0Pro来解决这些问题。

通过视觉、语言和扩散模型的相互作用,让智能体更有效推理任务,解释环境和过去经验,并操纵自身收集的数据,以重新用于新任务和目标。

更重要的是,DAAGG可以自主运行,无需人类监督,凸显其特别适合终身强化学习的场景。

如下图1,是扩散增强智能体完整框架。

其中,LLM充当主要控制器/大脑,查询和指导VLM和DM,以及智能体的高级行为。

通过一系列在不同环境中的实验,研究人员证明了DAAGG在改进智能体在关键能力上的表现:

1)用扩散模型生成合成样本增强的数据,微调视觉语言模型,自主计算已见和未见任务的奖励;

2)为给定任务设计和识别有用的子目标,通过扩散模型修改记录的观察,重新利用原失败的轨迹,从而更有效地探索和学习新任务;

3)提取相关数据,使用扩散模型重新利用其他轨迹,有效地将先前收集的数据转移到新任务中。

图2所示,DAAGG方法如何通过扩散增强,重新利用智能体的经验。

研究人员提出了一个扩散管道,提高了几何和时间一致性,并修改了智能体收集的部分视频。

方法

DAAGG具体设计方法如下。

研究人员将环境形式化为马尔可夫决策过程(MDP):在每个时间步t,环境和智能体处于状态s ∈ S。

从该状态,智能体接收视觉观察o ∈ O,并可以执行动作a ∈ A。

在每个回合中,智能体接收一个指令,这是用自然语言T描述的要执行的任务。

如果任务成功执行,智能体可以在回合结束时,获得奖励r = +1。

这项论文中,除了独立学习新任务外,作者还研究了DAAGG框架以终身方式连续学习任务的能力。

因此,智能体将交互经验存储在两个缓冲区中:当前任务缓冲区,称之为新缓冲区

:这个缓冲区在每个新任务开始时初始化。

然后是离线终身缓冲区

:智能体将所有任务的所有回合存储在这个缓冲区中,无论它们是否成功。

因此,后者是一个不断增长的经验缓冲区,智能体随后可以用它来引导新任务的学习。

以下是,作者选用的三种模型目的:

- 大模型LLM:编排智能体的行为,以及指导VLM和DM。LLM接受文本指令和数据,并输出文本响应。而且,利用LLM将任务分解为子目标,比较不同任务/指令的相似性,并查询VLM和DM。

- 视觉语言模型VLM:使用的是对比模型CLIP。CLIP由两个分支组成:图像分支和文本分支,它们分别以视觉观察和文本描述作为输入,最终输出相同大小的嵌入向量。

- 扩散Pipeline:研究的核心是通过语言指导的扩散模型,修改视觉观察。扩散Pipeline是为了提取智能体记录的观察

或一系列时间观察

,并保持几何和时间一致性的同时,修改观察中的一个或多个对象。

如下是,扩散Pipeline的示意图。

雷蛇 Razer Phone 2

在图5中,作者比较了ROISE和自己提出的Pipeline输出。前者不能保持对象姿势和外观,在帧之间的一致性。

三模fsa

扩散增强智能体框架

苹果T2处理器

在扩散增强数据上,微调VLM作为奖励检测器

VLM可以有效地用作奖励检测器,条件是基于语言定义的目标和视觉观察。

最近的研究显示,为了提升准确性,VLM通常需要在目标环境中收集的token数据上进行微调,适应所需的任务。

这是一个耗时的任务,而且每个新任务需要人类手动完成,严重阻碍了智能体以终身方式自主连续学习的多任务能力。

通过DAAGG框架,作者在先前收集的观察上微调VLM来解决这一挑战。

这个过程如上图2所示,通过这个过程,微调VLM作为LLM分解当前任务的所有子目标

的成功检测器。

通过后见之明经验增强,实现高效学习和迁移

在任何任务中收集的每个回合后,智能体收集一系列观察和动作

在DAAGG中,研究人员旨在最大化智能体可以学习处理新任务的回合数量,即使它没有达到任何所需的子目标。

最后,他们通过一个称为后见之明经验增强(HEA)的过程来实现这一点。

实验结果

DAAGG框架提出了LLM+VLM+DM之间的相互作用,以解决终身学习智能体面临的3个主要的挑战:

1)微调新的奖励/子目标检测模型,

2)提取和转移过去经验用于新任务,

3)高效探索新任务。

DAAGG能否将VLM微调为新任务的奖励检测器?

图7显示了,在数据集中没有示例的最左侧任务中,DAAGG如何通过综合其他任务中的示例实现大幅改进,同时在所见的任务中保持相同的性能。

在RGB Stacking和Language Table环境中,物体姿势之间的精确几何关系非常重要,而DAAGG与基线的差异则更为显著,这说明需要进行扩散增强才能获得有效的奖励检测器。

在房间环境中,CLIP接收到的观察结果虽然来自低保真模拟器和渲染器,但更接近它在网络规模数据集(水果和家具图片),上进行训练时接收到的观察结果分布。

因此,CLIP零样本性能要强得多,而在其他任务中,CLIP零样本性能则接近于随机猜测,这表明有必要进行微调。

DAAGG能否更高效地探索和学习新任务?

下图8中,作者绘制了100个测试事件中,成功解决任务实例的数量与训练事件数量的函数关系图。

在测试过程中,不执行任何探索策略或指导,而是让策略网络来引导智能体。

可以看到,DAAGG的学习速度比基线更快,将某些不成功的事件作为学习信号的能力,有助于提高在所有测试环境中的学习效率。

DAAGG能否更有效地连续学习任务,从过去的任务中转移经验?

图9中,研究人员比较了每种方法在使用

时,在任务

上的性能,性能指标是成功率。

可以看到,DAAGG超越了两个基准方法,主要归功于它能够从存储在

周杰伦 itunes aac

中大部分经验中学习,通过修改和重新利用解决

或其子目标

之外的任务轨迹。

通过场景视觉增强提高鲁棒性

然后,研究人员使用pipeline对每个观察进行5次增强,查询LLM来提出增强的描述(比如,一个有红色地板和白色墙壁的房间)。

作者将所有这些增强的观察添加到缓冲区,并在其上训练策略。

在原始和增强数据集上,训练的策略都在5个视觉上修改的房间中进行测试,随机改变墙壁和地板的颜色以及干扰物体,在每个房间进行20次测试回合。

三星a5发售价

图11展示了,视觉增强如何带来一个更加鲁棒的策略,能够在视觉上与单一训练Room中,与训练环境很不同的Room中也达到相同目标。

总而言之,这项研究中,作者提出了扩散增强智能体(DAAGG)。

这是一个结合了大型语言模型、视觉语言模型和扩散模型的框架,旨在解决具身AI智能体终身强化学习中的关键挑战。

关键研究结果表明,DAAGG能够在新的、未见过的任务中准确检测奖励,而传统方法在这些任务上难以泛化。

通过重用先前任务的经验,DAAGG能够逐步更高效地学习每个后续任务,得益于迁移学习而需要更少的回合。

最后,通过将不成功的回合,扩散为相关子目标的成功轨迹,DAAGG显著提高了探索效率。

参考资料:

https://arxiv.org/pdf/2407.20798

https://sites.google.com/view/diffusion-augmented-agents/


返回网站首页

本文评论
网传B站HR称核心用户都是Loser,官方回应“已启动内部调查”(b站人力资源总监)
IT之家 8 月 2 日消息,“二舅治好了我的精神内耗”视频爆火后,博主 @菠萝地海牛 一条旧微博被翻了出来。该博主爆料B站 HR 将核心用户称为“生活里的 Loser”,引发网友热议。...
日期:08-03
苹果iPhone 15曝光:升级USB-C口、支持AirPods/Apple Watch充电
据macotakara爆料,iPhone 15和iPhone 15 Pro系列机型的最高充电功率与前代产品相同,均为27W(9V/3A)。然而,值得注意的是,该系列机型采用了USB-C端口,这一改变将带来一系列新的配件...
日期:09-17
抖音:打击发布考上清华/北大等蹭高考热点同质化文案内容「抖音清华北大的男的」
6月27日 消息:抖音发布打击同质化不良信息公告称,近日,平台在日常巡查中发现,有极少数用户发布“考上清华/北大”等蹭高考热点同质化文案内容,平台进行了严格治理。其中,有“清**...
日期:06-27
核心业务营收大跌33%,英伟达连续两季业绩未达预期_英伟达季度财报
昨日,英伟达公布了今年第二季度的财报。财报显示,英伟达第二季度收入为67.0亿美元,同比增长3%,环比下降19%,这与两周前英伟达发布的业绩预览基本相当。华硕破晓系列这标志着英伟...
日期:09-12
街舞比赛男孩哭着放大招震惊全场 每一个动作都充满了力量和技巧
近日,山西某街舞比赛的现场发生了一段令人动容又震撼的插曲。比赛进行到中途,一位小朋友因等候时间过长,在角落里默默地打起了瞌睡。当他的妈妈轻声唤醒他时,小朋友眼中还挂着未...
日期:05-10
美股周五:三大股指创2008年以来最大年度跌幅,纳指今年累计下跌33%
美国时间周五,美股收盘主要股指全线下跌,投资者对企业利润前景和美国消费者前景的担忧影响了股市。今天是2022年最后一个交易日,美股今年创下2008年以来最大年度跌幅。道琼斯指...
日期:12-31
Auctoria 使用生成式人工智能创建视频游戏模型
要点:如何变得会和异性聊天1. Auctoria是一家创业公司,参加了TechCrunch Disrupt2023大赛,利用人工智能来自动生成3D视频游戏资产,解决了游戏开发者面临的繁琐手动工作。2. 这...
日期:09-21
小米14#1「安卓最强小钢炮预定!曝小米14预装MIUI 15」
快科技9月12日消息,博主数码闲聊站透露,小米14系列会出厂预装MIUI 15系统。据悉,MIUI 15基于Android 14深度定制,将会带来更好用的全局自由小窗功能,APP弹窗信息和游戏登录跳转登...
日期:09-12
电动车艾睿雅专享 东风日产推“官方补贴”:最高优惠3.26万元!
1月4日消息,快科技从东风日产官方获悉,其针对旗下首款纯电动车艾睿雅(Ariya)推出了专属的综合补贴促销活动,下定可享最高优惠3.26万元,优惠后售价为25.28-31.28万元(原价28.54-34.2...
日期:01-04
华为云与公安三所联合发布HCS网站安全认证服务(华为云hcip认证)
  日前,在华为中国生态伙伴大会上,华为云与国家网络与信息系统安全产品质量监督检验中心(公安部第三研究所)联合发布了HCS网站安全认证服务。华为云安全总经理杨松、国家网...
日期:06-01
用户反复退费获取蚂蚁森林绿色能量被封号 法院:处罚正当_蚂蚁森林被罚款
2月7日 消息:据杭州互联网法院消息,近期,杭州互联网法院判决了涉及“蚂蚁森林”的案件。在蚂蚁森林中,用户可以通过互相浇水等方式进行好友间互动,将储存的“绿色能量”转移至其...
日期:02-07
三星Galaxy S24 Ultra评测 新一代演唱会神器
三星Galaxy S24系列目前已经正式发售,该系列手机似乎在外观上与S23系列没什么差距,但内在的升级可是真不少,尤其是在AI方面,提供了很多全新的使用方式。在S23系列中,中杯、大杯与...
日期:02-07
理想汽车周销量0.86万辆 稳居中国市场新势力第一_理想汽车销量2021
快科技11月7日消息,理想汽车今天公布了最新的周销量:0.86万辆,开启挑战月销量新目标!2023年第45周(10月30日-11月5日),理想汽车的周销量达0.86万辆,稳居中国市场新势力品牌销量榜首...
日期:11-08
Facebook成为2010年美国搜索量最大的关键词_facebook关键词排名
  北京时间12月31日消息,互联网调研公司Hitwise的数据显示,“Facebook”成为2010年美国搜索量最大的关键词,占总搜索量的2.11%。   此外,“Facebook login”和“Facebook.c...
日期:07-25
富士康将采用英伟达 DRIVE-Orin 芯片打造自动驾驶汽车平台
1月4日消息:据路透社报道,图形芯片制造商英伟达和富士康周二表示,将合作制造电动汽车。苏宁电器的竞争战略两家公司表示,根据协议,英伟达将为富士康生产基于英伟达的DRIVE-Orin...
日期:01-04
赵明:刚从华为独立时在寒风中办公,一度发不出工资,没有人愿意给荣耀贷款
出品 | 科技作者 | 张雅婷1月10日消息,荣耀举行MagicOS 8.0发布会。在发布会开场前,荣耀CEO赵明回顾了荣耀独立三年来的艰难往事。吴刚儿子综艺他表示,回想三年前,荣耀刚独立没...
日期:01-11
李彦宏:过去一年人工智能的技术发展发生了方向性改变_李彦宏说AI将影响未来40年人类发展
  百度创始人、董事长兼首席执行官李彦宏在WAIC(世界人工智能大会)上发言称,WAIC已经举办了4年,人工智能产业规模实现倍增,助推上海人工智能发展实现新的跨越。过去一年,无论是...
日期:09-05
​由OpenAI支持的机器人公司1X获得1亿美元投资 计划推家庭服务机器人
**划重点:**1. 高德打车特价车开放时间小米真无线降噪耳机3 Pro空间音频...
日期:01-12
iPhone 15系列或将沿用高通基带:苹果自研5G芯片要等2025年「2021年的苹果11是高通基带」
早在iPhone 14系列发布之前,就有消息称苹果正在为iPhone系列自主研发5G基带芯片,但从iPhone 14系列依旧采用高通基带来看,苹果的进度并不理想。近日,根据海通国际证券分析师Jeff...
日期:10-15
历史性时刻要来了!7月新能源汽车渗透率预计达49.7%_2020年新能源车渗透率
快科技7月26日消息,本月狭义乘用车零售市场约为173.0万辆左右,同比去年-2.2%,环比上月-2.0%。深度系统20.2.2换红米手机屏幕多少钱其中,新能源零售预计86.0万辆左右,环比持平,同比...
日期:07-27