您的位置:首页 > 互联网

用多模态世界模型预测未来!UC伯克利全新AI智能体,精确理解人类语言,刷新SOTA

发布时间:2023-08-15 18:15:41  来源:互联网     背景:


新智元报道

编辑:好困

【新智元导读】智能体如何从不同的语言中理解世界?近日,来自UC伯克利的研究人员提出了一种全新的AI智能体,可以通过对未来进行多模态世界建模来学习理解语言。

现在,基于强化学习的智能体已经可以轻松地执行诸如「捡起蓝色积木」这类的指令。

但人类大部分时间的语言表达,却远远超出了指令的范围。 比如:「我们好像没有牛奶了」......

而智能体想要学习这类语言在世界中的含义,是非常困难的。

对此,来自UC伯克利的研究团队认为,我们实际上可以利用这些语言,来帮助智能体更好地对未来进行预测。


论文地址:https://arxiv.org/pdf/2308.01399.pdf

具体来说,研究人员提出了一种全新的智能体——Dynalang。

与仅用语言预测动作的传统智能体不同,Dynalang通过使用过去的语言来预测未来的语言、视频和奖励,从而获得丰富的语言理解。

除了在环境中的在线交互中学习外,Dynalang还可以在没有动作或奖励的情况下在文本、视频或两者的数据集上进行预训练。


也就是说,新的智能体这时再听到「我们没有牛奶了」,就能get到这句话意思是「冰箱里的牛奶喝完了」。

工作原理

使用语言来理解世界自然而然地适合于世界建模范式。

Dynalang以基于模型的RL智能体DreamerV3为基础,并可利用其在环境中动作时所收集到的经验数据,不断地进行学习。

19款13.3寸苹果macbookpro未激活

左:世界模型在每个时间步将文本和图像压缩为潜在表征。在这个表征中,模型被训练以重构原始观察结果,预测奖励,并预测下一个时间步的表征。直观地说,世界模型学会了在给定文本中所读内容的情况下,应该期望在世界中看到什么。

右:Dynalang通过在压缩的世界模型表征基础上训练策略网络来选择动作。它在世界模型的想象中反复进行训练,从而学会采取最大化预测奖励的动作。


与之前一次处理一个句子或段落的多模态模型不同,Dynalang将视频和文本作为一个统一的序列进行建模,一次处理一个图像帧和一个文本token。

直观地说,这更像是人类在现实世界中接收输入的方式。

将所有内容都建模为一个序列,就可以像语言模型一样在文本数据上进行预训练,从而提高强化学习的性能。

语言提示

为了评估智能体在环境中的表现,研究人员引入了HomeGrid。其中,智能体除了任务指令外,还会收到语言提示。

HomeGrid中的提示,不仅模拟了智能体可能从人类那里学到的知识或从文本中读到的信息,而且还提供了有用但不是解决任务所必需的信息:

- 「未来观察」:描述智能体在未来可能观察到的情况,例如「盘子在厨房里」。

- 「纠正」:根据智能体正在执行的任务的提供交互式反馈,例如「转过身去」。

- 「动态」:描述环境的动态,例如「踩踏板打开堆肥箱」。


虽然智能体并未接受过明确的指导来分辨观察结果和文本的对应关系。 但Dynalang仍能通过未来的预测目标,学会将各种类型的语言与环境联系起来。

结果显示,Dynalang要明显优于以语言为条件的IMPALA和R2D2。

后者不仅在使用不同类型的语言时非常吃力,而且在使用指令以外的语言时表现得更差。


游戏评估

在Messenger游戏环境中,研究人员测试了智能体是如何从较长且更复杂的文本中学习的,这需要在文本和视觉观察之间进行多跳推理。

智能体必须对描述每个情节动态的文本说明进行推理,并将其与环境中的实体观察结合起来,以确定从哪些实体获取消息和避开哪些实体。

结果显示,Dynalang的表现要明显优于IMPALA和R2D2,以及使用专门架构对文本和观察结果进行推理任务优化的EMMA基准,尤其是在最困难的第3阶段。



指令跟随

Habitat的测试结果表明,Dynalang能够处理逼真的视觉观察并执行指令。

也就是,智能体需要按照自然语言的指令,导航到家中的目标位置。

在Dynalang中,指令跟随可以通过将其视为未来奖励预测,来在相同的预测框架中统一处理。

红米k40手机如何查看激活时间


微店抢拍app


语言生成

就像语言会影响智能体对所见事物的预测一样,智能体观察到的事物也会影响它期望听到的语言(例如,关于所见事物的真实陈述)。

通过在LangRoom中将语言输出到动作空间中,Dynalang可以生成与环境相关联的语言,从而执行具体的问题回答。



文本预训练

由于使用语言建立世界模型与使用世界模型学习动作是分开的,因此Dynalang可以在没有动作或奖励标签的情况下使用离线数据进行预训练。

这种能力使Dynalang能够从大规模的离线数据集中受益,所有这些数据集都在单一模型架构内。

研究人员使用纯文本数据对Dynalang进行预训练,并从头开始学习token嵌入。

模型在通用文本数据(TinyStories,200万个短故事)上进行预训练之后,可以提高Messenger下游RL任务的表现,甚至超过了使用预训练的T5嵌入。

redmi note 11 5g版支持快充吗


尽管这项工作的重点是让智能体能够理解语言并采取行动,但其实也可以像纯文本语言模型一样生成文本。

研究人员在潜空间中对预训练的TinyStories模型进行了抽样推演,并在每个时间步骤从表征中解码出token观察。

结果显示,模型生成的结果具有令人惊讶的一致性,不过在质量上仍然低于SOTA的语言模型。

不过由此也可以看出,将语言生成和行动统一到单一的智能体架构中,是一个很有趣的研究方向。


作者介绍

Jessy Lin


论文一作Jessy Lin,是加州大学伯克利分校人工智能研究院(Berkeley AI Research)的三年级博士生,由Anca Dragan和Dan Klein指导。

她的研究方向是构建能与人类合作和互动并以语言为媒介的智能体。此外,她还对对话以及语言+强化学习非常感兴趣。目前,她的研究得到了苹果人工智能奖学金的支持。

她在麻省理工学院获得了计算机科学和哲学双学位。在那里,她与计算认知科学小组合作,在Kelsey Allen和Josh Tenenbaum的指导下进行人类启发式人工智能研究,同时作为labsix的创始成员从事机器学习安全研究。

此外,她还曾在Lilt从事人机协作机器翻译/专家翻译的Copilot研究和产品开发。

参考资料:

https://dynalang.github.io/


返回网站首页

本文评论
婚闹堵门1小时 丈母娘吃2次救心丸 网友:讨红包也要有个度
结婚是人生中的一件大事,对于每个人来说都十分重要,希望自己的婚礼能够热闹而难忘。联想拯救者y9000与小新16pro在婚礼上,有时会添加一些仪式,如堵门仪式,旨在让婚礼更具气氛和热...
日期:04-11
网易暴雪走向决裂的最后一谈:两个高价续约条件,抄袭IP和裁员争议
  记者/范佳来  实习生/姜霁轩  伴随魔兽巨斧的轰然倒塌,网易和暴雪的十四年“婚姻”终于以最不堪的姿态走向破裂。;  暴雪绿茶、暴雪没有心、暴雪绿茶小趴菜......1...
日期:01-19
堡尼男装&百胜软件E3全渠道中台启动会举行(堡尼男装专卖店)
  2021年01月5日,堡尼男装&百胜软件E3全渠道中台启动会成功举行。堡尼男装总经理汪永泽、营销总监金晶颖、加盟总监胡申翔、财务总监陈剑,百胜软件上海分公司总经理梅佳承...
日期:07-10
美团港股上市首日_港股美团跌超11%,市值跌破1万亿港元
京东手机销量最新 查看最新行情   讯 8月16日下午消息,港股美团跌超11%,报159.6港元每股,市值跌破1万亿港元。此前有市场消息称,腾讯计划出售美团的全部或...
日期:08-20
将改用USB-C接口 iPhone15 Ultra配置曝光「苹果11可以用usb-c接口吗」
中关村在线消息:近日,根据海外博主曝光的信息,苹果将于明年重构iPhone系列的产品结构,或将推出由iPhone 15、iPhone 15 Plus、iPhone 15 Pro、iPhone 15 Ultra组成的四款全新机...
日期:10-05
腾讯股票涨停_中概股周一收盘涨跌互现 腾讯音乐涨近6% 趣活跌超11%
  北京时间16日凌晨,美股周一小幅收高,主要股指延续上周涨势。市场继续关注全球经济衰退风险,并等待美国零售巨头财报以及7月零售销售数据。   道指涨151.39点,涨幅为0.45%...
日期:08-20
“民调”投票之前,马斯克就已主动物色推特CEO“继承者”_马斯克投票权
  讯 北京时间12月21日早间消息,据报道,知情人士透露,在推特老板兼CEO埃隆·马斯克(Elon Musk)发起“是否该卸任推特CEO”的投票之前,他就已主动为该公司物色一名新CEO。  马...
日期:12-21
三星 智能音箱_智能音箱:三星还欠我一个交代
  提到三星,大家想到更多的一定是智能手机,三星可以说是智能手机时代的三甲之一。然而,如今的智能手机已经火了将近十个年头,开始面临增长瓶颈,下一个现象级硬件产品是什么,尚...
日期:10-04
中保研:奥迪前大灯国内主流车型中最贵 6.5万元一个「中保研2020奥迪评测结果」
11月7日,中保研C-IASI公布了第十四期汽车零整比体系研究结果,披露了具有市场代表性的100款样本车型,其汽车零整比系数、常用配件负担指数、前大灯单件零整比、发动机罩单件零整...
日期:11-16
三星4521「三星4521f打印机清零方法」
是三星在办公打印机领域中的一款产品,其采用激光打印技术,拥有高速打印、扫描、复印多种功能,且价格相对较为实惠,备受用户青睐。ios15夜间拍照首先,拥有出色的打印性能。它采用...
日期:06-03
专利文件显示苹果可能开发太阳能iPhone_苹果最新专利显示
  苹果近日提交的一份专利申请显示,该公司研发了将太阳能电池安装在可移动设备和iPod上的技术,分析人士称这可能 意味着苹果正在研发太阳能iPhone。 在iPhone上应用太阳能...
日期:07-29
红米k60多重「红米K60或为双旗舰!配置将吊打小米12」
中关村在线消息:10月8日,据相关爆料,即将在明年第一季度发布的红米K60系列新机详细参数已经曝光,新机将采用双旗舰策略,两款机型均采用旗舰芯片,标准版搭载高通骁龙8+,Pro搭载高通骁...
日期:10-14
全画幅微单          EOS R镜头下的圣洁珠峰就是答案
对于很多登山爱好者来说,可能一生的终极梦想就是登顶珠穆朗玛峰,海拔8844.43米的世界第一高峰。想要攀登珠峰对于我们平常人是极为困难的,但是我们仍然可以在珠峰脚下拍摄...
日期:12-01
男子摔坏主管手机被开除 法院:公司赔偿13万余元_砸坏手机
5月8日消息,四川成都。一名男子周某因与主管发生争执并动手,公司以周某违反公司规章制度为由解除劳动关系。红极一时的微波炉为何跌下神坛周某对公司单方面解除劳动关系表示不...
日期:05-08
Novell前高管担任惠普印度工程技术部副总裁
(清雨)北京时间5月12日消息,据国外媒体报道,惠普周四宣布,任命纳里什·沙赫(Naresh Shah)担任公司最新设立的工程技术、企业服务器、存储和网络部副总裁。沙赫将主要负责惠普在印...
日期:07-27
Canaly:一季度中国大陆智能手机市场出货同比下滑11%
4月27日 消息:分析机构Canaly公布数据称,2023年第一季度中国大陆智能手机市场出货同比下滑11%,出货量降低至6760万台,是自2013年以来最低的第一季度。其中,苹果凭借iPhone14系列...
日期:04-27
百视通推出“超级影视会员” 升级家庭娱乐服务_百视通免费永久会员电视版
  近日,百视通发布了一项全新的视频服务——“超级影视会员”,将旗下拥有的百视通TV、百视通少儿电视端应用,BesTV APP、BesTV Live手机客户端、SMGBB网站五大产品打通,实现...
日期:10-22
乐淘佳资讯:2020年网店转让行业分析报告(乐淘佳网店转让平台可靠吗)
  据天眼查专业版最新数据显示,目前我国共有超378万家电商相关企业。近年来,基于互联网的“商业服务业”迅速崛起,平台与服务商融合发展,服务商生态集聚化。在互联网平台...
日期:04-12
直击BW2023现场,攀升玩创嘉年华次元新品、GeForce RTX 40系主机炫酷亮相
7 月 21 日, 2023 年BilibiliWorld(以下简称BW)在上海国家会展中心盛大开幕。攀升科技进驻3H馆3A18 展台,为大家带来一场别开生面的“攀升玩创嘉年华”。现场,攀升科技发布 2023...
日期:07-21
马斯克删推特账号 新闻「马斯克推特收购案最新细节披露:原来是在短信上谈崩了」
  IT之家9月30日消息,根据本周举行的马斯克推特收购案公开听证会上披露的信息,马斯克在与推特CEO帕拉格・阿格拉瓦尔(ParagAgrawal)的一次戏剧性短信交流中,改变了收购推特的主...
日期:10-03