您的位置:首页 > 互联网

谷歌打造「终结者」!ChatGPT版最强机器人AGI,动嘴操控007「2016年谷歌机器人」

发布时间:2023-07-31 00:21:13  来源:互联网     背景:


新智元报道

编辑:桃子 Lumina

【新智元导读】谷歌DeepMind带着全新的模型杀回来了!视觉-语言-动作模型(VLM)即将取代类似ChatGPT的大语言模型。

一觉醒来,大模型的版本又更新了?

火遍全球的大语言模型,已经Out了?

本次版本更新的主角是谷歌DeepMind推出的「视觉-语言-动作」(vision-language-action,VLA)模型!


论文地址:https://robotics-transformer2.github.io/assets/rt2.pdf

根据谷歌内部披露,VLA模型已经接入到机器人身上,能够和现实世界进行互动了!

这个机器人被谷歌命名为Robotic Transformer 2 (RT-2) ,它能够从网络、机器人的数据中学习,还能将这些知识自主转化为有效的指令。


简单来说,你只需要对RT-2画个饼,之后就可以等着RT-2把饼喂到你嘴边了。

网友们纷纷表示:这真是泰酷辣!


谷歌DeepMind负责人表示,

长期以来,计算机在分析数据等复杂任务方面表现出色,但在识别和移动物体等简单任务方面却不尽如人意。通过 RT-2,我们正在缩小这一差距,帮助机器人解读世界并与之互动,让其对人类更加有用。


但俗话说,一口吃不成个大胖子,在RT-2成为RT-2之前,它的前辈Robotic Transformer 1 (RT-1)为RT-2打下了坚实的基础。

RT-1升级RT-2,VLM到VLA

RT-1是一种多任务模型,基于Transformer构建,能够将图像、自然语言指令等作为输入,并直接输出标记化动作。


RT-1 的架构:该模型采用文本指令和图像集作为输入,通过预先训练的 FiLM EfficientNet 模型将它们编码为token,并通过 TokenLearner 压缩它们。然后将这些输入到 Transformer 中,Transformer 输出操作token

因此,与一般机器相比,RT-1具有更好的性能和泛化能力。


其中,RT-1所搭载的视觉语言模型(vision-language models ,VLMs)扮演了关键角色。

VLM在互联网级的数据集上进行训练,因此在识别视觉、语言和跨语言合作这块具有极高水平。

在RT-1基础上升级过的RT-2仍以VLM 为基础,是谷歌研究员在办公室、厨房等环境中使用13个RT-1的17个月数据上进行训练的。

但RT-2比RT-1多了一个机器动作(action)的模态。

为了解决模型对机器控制的挑战,研究人员将RT-2的机器操作设置为模型的输出标记,并将其描述为可以由标准自然语言标记器处理的字符串,如下所示:


RT-2 训练中使用的动作字符串的表示形式。这种字符串的示例可以是机器人动作标记编号的序列,例如「1 128 91 241 5 101 127 217」

于是,解决加入动作模态(action)将模型与机器进行联结的挑战后,VLM就升级为了VLA。

RT-2也在一系列的升级换代后,显示出了惊人的学习能力和理解能力:

它能够自己解释全新的命令,通过执行基本推理来响应用户的要求。

谷歌最新机器人

甚至在与思想链推理结合的情况下,RT-2能够执行多阶段的语义推理。

如,决定哪个物体可以用作临时的锤子(石头),或者哪种类型的饮料最适合疲倦的人(一种能量饮料)。


RT-2架构和训练:针对机器人和网络数据共同微调预训练的VLM模型。生成的模型接收机器人看到的图像并直接预测机器人要执行的动作

泛化能力提升62%

研究人员在在RT-2模型上进行了一系列定性和定量实验,一共进行了6,000多次机器人试验。

具体来讲,谷歌团队探索了RT-2的三项技能:

- 符号理解

- 推理

- 人类识别

以上的每项任务都需要理解视觉语义概念,以及执行机器人控制的能力。

比如,让RT-2去捡起从桌子上掉下来的袋子,或者将香蕉放到2+1之和的数字的命令。

其中要求机器人对数据中从未见过的物体或场景执行操作任务,将知识从基于网络的数据转化为可操作的。


数据中不存在的技能示例,需要通过网络预训练进行知识迁移

在所有类别中,研究人员观察到,与之前的基线(例如之前的RT-1模型和Visual Cortex (VC-1) 等模型)相比,泛化性能提高了3倍以上,这些模型是在大型视觉数据集上进行预训练的。


紧急技能评估的成功率:RT-2 模型优于RT-1和VC-1基线

此外,研究人员还进行了一系列定量评估,首先是机器人数据中有实例的原始RT-1 任务,然后对机器人先前未见过的物体、背景和环境。

以上的任务可以让机器人从VLM预训练中学习泛化。


机器人以前未见过的环境示例

RT-2保留了数据中「看到」的原始任务的能力,并提高了机器人在以前未见过场景中的性能,从RT-1的32%提高到了62%。

研究人员还观察到,与仅视觉任务预训练的基线相比有显着改进,例如VC-1和机器人操作的可重用表示 (R3M),以及使用VLM进行对象识别的算法。

水循环示意图

RT-2 在可见的分布内任务上取得了高性能,并且在分布外未见的任务上优于多个基线。

团队还在开源语言表(Language Table)机器人任务套件上评估了模型,模拟中的成功率高达90%,比BC-Z(72%)、RT-1(74%)和LAVA(77%)等以前的基线模型有了大幅提高。

然后,他们还在现实世界中评估相同的模型,并展示了其泛化到新对象的能力。

如下所示,其中除了蓝色立方体之外,没有任何物体出现在训练中数据集。


RT-2在真实机器人语言表任务中表现良好

受到LLM中使用的CoT方法的启发,研究人员还将机器人控制与思维链推理相结合,以便能够在单个模型中学习长期规划和低级技能。

特别是,对RT-2的变体进行了几百个梯度步骤的微调,以提高其联合使用语言和动作的能力。

然后,研究人员还对数据进行了扩充,添加了一个额外的「计划」步骤。

首先用自然语言描述机器人即将采取的动作的目的,然后是「动作」和动作标记。

示例如下:


思想链推理能够学习一个独立的模型,该模型既可以规划长期技能序列,又可以预测机器人的动作

通过此过程,RT-2可以执行更多复杂的命令,这些命令需要推理完成用户指令所需的中间步骤。

得益于VLM主干,RT-2还可以根据图像和文本命令进行规划,从而实现基于视觉的规划。

通用机器人前景

RT-2的最新研究表明,视觉语言模型(VLM)可以转化为强大的视觉语言动作(VLA)模型。

通过将VLM预训练与机器人数据相结合,可以直接控制机器人。

基于大模型PaLM-E和PaLI-X的两个实例化,RT-2提升了机器人的策略。

更重要的是,还带来了显着更好的泛化能力、以及应对突发问题的能力,继承了网络规模的视觉语言预-训练。

RT-2不仅是对现有VLM模型的简单,而有效的修改,而且还展示了构建通用实体机器人的前景。

该机器人可以推理、解决问题和解释信息,以在现实中执行各种任务世界。

或许,机器人总动员中,那个聪明的瓦力离我们不远了。


参考资料:

https://twitter.com/GoogleDeepMind/status/1684903412834447360

https://www.deepmind.com/blog/rt-2-new-model-translates-vision-and-language-into-action?utm_source=twitter&utm_medium=social&utm_campaign=rt2


返回网站首页

本文评论
极客修内部视频曝光 工程师违规竟是为了给消防员买单
  就在前两天,张伟接到了一个北京海淀的订单,在维修的时候与客户聊天时,意外得知客户是消防员,手机是在执行公务的过程中摔碎的。视频最后,张伟直接对客户说了免单优惠,只说是...
日期:08-14
抖音电商调整:商城“淘宝化”,内容和商品分流,运营负责人李恬离职
360推广有手机端吗封面来源 | 图虫创意   文|;陈桥辉   来源:Tech星球   Tech星球独家获悉,抖音电商将迎来调整,继6月份抖音电商作者商品运营负责人李恬离职后,抖音电商正...
日期:08-17
马斯克:未来两年不再出售特斯拉股票 2023年汽车需求将会下降_特斯拉股票2020年
12月23日消息:特斯拉CEO埃隆·马斯克周四表示,未来两年内他不会再出售特斯拉股票。马斯克还预测,2023年经济将会陷入「严重衰退」,对汽车的需求将会下降。在Twitter Spaces的音...
日期:12-23
亏损10亿美元!奈飞较5月低点反弹50%,空头遭重创「奈飞股票行情」
  最近几个月做空奈飞(NFLX.US)的投资者损失惨重。  这家流媒体巨头的股价较5月份的低点飙升了50%,这主要得益于其推出有助于重振增长的新功能、季度业绩好于预期,以及最...
日期:09-27
博世在苏州投资建立新能源汽车核心部件及自动驾驶研发制造基地
1月14日消息,近日博世集团旗下全资子公司博世汽车部件(苏州)有限公司(以下简称“博世苏州”)与苏州工业园区管理委员会签署投资协议,并宣布在苏州投资建立博世新能源汽车核心部件...
日期:01-14
谷歌前CEO反对暂停AI研究 称“只会让中国受益”_谷歌宣布
集微网消息,谷歌前CEO埃里克·施密特(Eric Schmidt)表示,暂时停止人工智能开发只会给中国带来优势。此前1000多名研究人员签署了一封公开信,警告人工智能研究过快的后果。typec接...
日期:04-08
今日起!私家车10年只检两次 老车正式告别“一年两检”_超过二十年的私家车,一年检车几次
  10月1日起,国内机动车检车新政策正式开始实施。  新措施规定,调整优化检验周期,进一步优化调整非营运小微型载客汽车(9座及9座以下,面包车除外)、摩托车检验周期。  对非...
日期:10-03
618,家电企业和自己“打架”「家电企业公司」
每年“6·18”,家电促销都成为热点。线上平台线下门店为吸引客流接连抛出价格惊喜,北京商报记者走访多家门店了解到,家电产品的成交量确实好过平时。  然而,从上游看,成交量上...
日期:06-06
湖北移动AI技术助力东风本田打造智慧园区
  丢失、忘带工作证进不了公司怎么办?重要客户来访,需要一再确认身份怎么办?近日,记者从中国移动湖北公司获悉,该公司联合中移在线服务有限公司为武汉东风本田汽车有限公司...
日期:05-27
谷歌败诉其迄今以来最狠罚款“安卓上诉案”,罚金仅微降至41亿欧元
当地时间周三,欧洲第二高等法院“欧盟普通法院”维持了欧盟委员会对谷歌利用其安卓移动操作系统打压竞争对手的反垄断决定。法院将罚款从43亿欧元缩减至41亿欧元。这对欧盟遏...
日期:09-16
2月充会员只能用28天?爱奇艺回应:按自然月算_爱奇艺充会员是按月计吗
近日,有多名2月28日续费爱奇艺月度会员的网友表示,会员有效期截至3月28日,实际会员时长只有28天,质疑爱奇艺会员的计算规则有问题。爱奇艺客服表示,会员月卡服务时间以自然月为统...
日期:03-02
海信副总裁贾少谦简介_海信总裁贾少谦:全球芯片短缺可能还会持续 2~3 年
  近日,海信集团总裁贾少谦在接受 CNBC 采访时表示,全球芯片短缺可能还会持续两到三年才会结束。   去年以来,全球芯片荒加剧所带来的影响扩及各行各业,从汽车到消费电子...
日期:07-17
2023年五一小长假健身投影仪哪个好,哈趣K1 Pro游戏模式健身内容丰富_哈奇投影仪说明书
五一小长假即将开启,很多计划不远行,宅家多多陪陪家人,放松下身心。很多人会考虑安排一些宅家娱乐活动方式,那投影仪宅家健身,追剧看电影就是非常好形式。今天就来说说 2023 年五...
日期:04-28
雅迪石墨烯电池电瓶车_探寻雅迪电动车推出石墨烯电池的“台前幕后”
  雅迪电动车今年的新能源产品——石墨烯电池,一经推出,就受到了广泛的关注。雅迪石墨烯电池很好地解决了传统铅酸蓄电池寿命短、充电慢、续航短的痛点,为消费者提供了更...
日期:09-23
airbnb房东拒绝预定会怎样_民宿命案后,Airbnb的四项措施能守住用户安全吗?
  Airbnb首席执行官Brian Chesky周三宣布,该公司正在推出几项新的安全功能。此前,该公司的一项预订房屋中发生枪击事件,导致五人死亡。   新的功能包括四点:   • 100%核...
日期:11-04
每日优鲜多家公司接连经营异常「每日优鲜经营情况」
  财联社8月25日电,天眼查App显示,近日,江苏每日优鲜电子商务有限公司因通过登记的住所或者经营场所无法联系,被南京市市场监督管理局列入经营异常名录。近期,北京每日优鲜科技...
日期:08-27
1年横跨全国83城!有能链团油老司机就是这么能跑
  对于以星期甚至月来计算日期的长途货运司机来说,即使角捌分的油价上涨对他们的收入影响也是巨大的,但能链集团旗下能链团油的服务,对于单次加油动辄四位数金额的长途货...
日期:01-28
“福尔摩斯作品集”结束版权保护:可以随意翻拍了!米老鼠IP同样快到期
2023新年即将开启,这也意味着一些IP作品结束版权保护,即将进入公域。其中就包括英国作家阿瑟柯南道尔的《福尔摩斯作品集》,其最后一部在美国的版权保护将在本周末结束,正式进入...
日期:12-30
联通靓号20年「打破纪录?联通靓号15666666666起拍价高达1366万元」
【手机中国新闻】你永远不知道一些手机靓号能值多少钱,经过拍卖平台上的价格追逐之后,它们的“身价”可能达到你难以想象的地步。2014年中国手机销量排行榜9月13日消息,阿里资...
日期:09-17
网飞版《三体》新预告发布:定档2024年1月开播「三体 网飞」
6月18日消息,今天,网飞官方公布了国产科幻小说《三体》改编的同名剧集《三体》的最新预告,并宣布该作共8集,将在2024年1月开播。此次的预告包含了很多此前从未公布的新画面,我们...
日期:06-19