您的位置:首页 > 互联网

机器人研究迎来ImageNet时刻:一个数据集,让DeepMind具身智能大模型突飞猛进

发布时间:2023-10-05 12:31:08  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心编辑部,授权转载发布。

为什么机器人技术远远落后于 NLP、视觉和其他 AI 领域?除其他困难外,数据短缺是罪魁祸首。谷歌 DeepMind 联合其他机构推出了 Open X-Embodiment 数据集,并训练出了能力更强的 RT-X 模型。

在大模型不断取得突破的2023,把大模型当做大脑来辅助运行的具身智能机器人研究也在被迅速推进。

2个多月前,谷歌 DeepMind 推出了第一个控制机器人的视觉 - 语言 - 动作(VLA)模型 ——RT-2。这个模型让机器人不仅能解读人类的复杂指令,还能看懂眼前的物体(即使这个物体之前从未见过),并按照指令采取动作。比如,你让机器人拿起桌上已灭绝的动物。它会抓起眼前的恐龙玩偶。

当时,一位谷歌高管称,RT-2是机器人制造和编程方式的重大飞跃。由于这一变化,我们不得不重新考虑我们的整个研究规划了。

更令人吃惊的是,时间仅仅过去了两个多月,DeepMind 的这个机器人模型又进步了,而且一下就提高了两倍。

这是怎么实现的呢?

我们知道,机器人通常在做某一件事情上非常专业,但通用能力很差。一般情况下,你必须针对每项任务、每个机器人和环境训练一个模型。改变一个变量往往需要从头开始。但是,如果我们能将各种机器人学的知识结合起来,创造出一种训练通用机器人的方法呢?

这就是 DeepMind 在过去一段时间所做的事情。他们汇集了来自22种不同机器人类型的数据,以创建 Open X-Embodiment 数据集,然后在之前的模型(RT-1和 RT-2)的基础上,训练出了能力更强的 RT-X(分别为 RT-1-X 和 RT-2-X)。

他们在五个不同的研究实验室测试了 RT-1-X 模型,结果显示,与针对每个机器人独立开发的方法相比,新方法在五种不同的常用机器人中平均成功率提高了50%。他们还表明,在上述数据集上训练的 RT-2-X 在现实世界机器人技能上的表现提高了2倍,而且,通过学习新数据,RT-2-X 掌握了很多新技能。这项工作表明,在来自多个机器人类型数据上训练的单个模型比在来自单个机器人类型数据上训练的模型在多个机器人上的性能要好得多。

值得一提的是,这项研究并非由 DeepMind 独立完成,而是他们与33家学术实验室通力合作的结果。他们致力于以开放和负责任的方式开发这项技术。

目前,Open X-Embodiment 数据集和 RT-1-X 模型检查点已经对广泛的研究社区开放。

英伟达高级人工智能科学家Jim Fan表示今天可能是机器人的ImageNet时刻。

谷歌研究员Karol Hausman也表达了同样的感叹:机器人的ImageNet时刻终于到来了。

6nm5g疾速芯怎么样

Open X-Embodiment 数据集,机器人的 ImageNet 时刻

数据集以及基于数据集训练的模型在推进 AI 进步方面发挥了关键作用。正如 ImageNet 推动了计算机视觉的研究,Open X-Embodiment 同样推动了机器人技术的发展。

一直以来,构建多样化数据集是训练通用模型的关键,这些训练好的模型可以控制许多不同类型的机器人,遵循不同的指令,对复杂任务进行基本推理,并有效地进行泛化。然而,对于任何单个实验室来说,收集这样的数据集都过于耗费资源。

为此,DeepMind 与33家机构的学术研究实验室展开合作,从而构建了 Open X-Embodiment 数据集。他们从22个机器人实例中收集数据,这些数据涵盖超过100万个片段,展示了机器人500多项技能和在150000项任务上的表现。该数据集是同类中最全面的机器人数据集。

来自 Open X-Embodiment 数据集的样本,包括500多种技能和150000个任务。

Open X-Embodiment 基本信息

RT-1-X:成功率提升50%

RT-X 基于两个 robotics transformer(RT)模型构建而成。

具体而言,他们使用 RT-1训练 RT-1-X,其中 RT-1是建立在 Transformer 架构上的35M 参数网络,专为机器人控制而设计,如图3所示。

此外,他们还在 RT-2上训练 RT-2-X,其中 RT-2是一系列大型视觉语言动作模型 (VLA),在互联网规模的视觉和语言数据以及机器人控制数据上训练而成。

为了评估 RT-1-X,DeepMind 将其与在特定任务上(例如开门)开发的模型进行了比较。结果显示,使用 Open X-Embodiment 数据集训练的 RT-1-X 平均性能优于原始模型50%。

RT-1-X 平均成功率比原始方法提高50%。

来自不同合作机构的关于 RT-1-X 的效果展示

RT-2-X:无障碍解锁新技能

为了研究 RT-X 的知识迁移能力,DeepMind 又进行了其他实验。这些实验涉及 RT-2数据集中不存在的对象和技能,但这些对象和技能存在于另一个机器人的数据集中。结果表明,在掌握新技能方面,RT-2-X 的成功率是其之前的最佳模型 RT-2的三倍。这也说明了,与其他平台的数据进行联合训练可以为 RT-2-X 赋予原始数据集中不存在的额外技能,使其能够执行新颖的任务。

上图展示了 RT-2-X 对物体之间空间关系的理解。

全息投影优势

一系列结果表明,RT-2-X 实现了 RT-2以前无法实现的技能,包括对空间更好的理解。例如,如果我们要求机器人将苹果移动到布料附近、又或者要求机器人将苹果移动到布料上,为了实现目标要求,机器人会采取完全不同的轨迹。只需将介词从near更改为on,就可以调整机器人采取的动作。

amd 锐龙7000

RT-2-X 表明,将其他机器人的数据结合到 RT-2-X 训练中可以改善机器人的任务执行范围,但前提是使用足够高容量的架构。

RT-2-X (55B): 迄今为止在学术实验室执行未知任务的最大模型之一

研究启发:机器人需要相互学习,研究人员也一样

机器人研究正处于令人兴奋的早期阶段。DeepMind 的这项新研究表明,通过利用更多样化的数据和更好的模型进行扩展学习,有可能开发出更有用的辅助机器人。与世界各地的实验室合作并共享资源,对于以开放和负责任的方式推进机器人研究至关重要。DeepMind 希望通过开放数据源和提供安全但有限的模型来减少障碍,加快研究。机器人技术的未来有赖于机器人之间的相互学习,最重要的是,让研究人员能够相互学习。

这项工作证明,模型可以在不同环境下通用,无论是在谷歌 DeepMind 的机器人上,还是在世界各地不同大学的机器人上,其性能都得到了显著提高。未来的研究可以探索如何将这些进步与 RoboCat 的自我完善特性相结合,使模型能够根据自身经验不断改进。未来的另一个方向是进一步探索不同数据集的混合会如何影响跨具身智能体泛化,以及这种泛化是如何是实现的。

如果你想了解有关 RT-X 的更多信息,可以参考 DeepMind 发布的这篇论文:

  • 论文链接:https://robotics-transformer-x.github.io/paper.pdf

  • 项目链接:https://robotics-transformer-x.github.io/

参考链接:https://www.deepmind.com/blog/scaling-up-learning-across-many-different-robot-types

索赔100亿!上海一公司把苹果告上法庭,要求停售iPhone


返回网站首页

本文评论
1699元起!华为智能眼镜2开售:11小时续航 听歌、通话神器
快科技9月30日消息,华为智能眼镜2将于今日上午10:08正式开售,售价1699元起,拥有方形半框/飞行员、金丝光学镜、钛空光学镜等多种款式。据了解,华为智能眼镜2钛空和金丝款为全新...
日期:09-30
快手小店:禁止商家弄虚作假刷高客服服务评价「快手小店售假处罚」
11月16日 消息:今日,快手电商发布了关于《快手小店商家客户服务管理规则》修订公告,修订后的规则于2022年11月24日生效。各种筹款平台微软surface pen有哪些功能据悉,本次核心...
日期:11-23
hp笔记本官网「惠普笔记本官网首页」
HP(惠普)是全球电脑及打印产品制造商之一,世界500强企业之一。其笔记本系列产品广受全球用户的青睐,特别是在中国市场有着广泛的用户群体。今天我们就来介绍一下HP笔记本官网。H...
日期:05-31
都是苹果的套路!iPhone14 Plus遇冷iPhone14 Pro卖爆_iphone 14 Pro
中关村在线消息:iPhone 14 Plus首销,却迅速破发,第三方报价已经比苹果官网便宜了400元左右。上个月黄牛抢购的现象并未在iPhone 14 Plus上重现。vivox90最新消息几月份发布iPho...
日期:10-13
海尔洗鞋机:洗净+、磨损-「海尔洗鞋机如何使用」
夏天天气热,孩子的脚出汗多,鞋子难免会脏,洗鞋便成了家长头疼的事。自己刷不干净不说,稍有不慎还会磨损鞋面。怎样才能找到一个洗鞋好帮手?今年 618 期间,海尔球刷式洗鞋机上市最...
日期:06-07
海底捞开始夜市摆摊 官方:门店进行的个性化创新试点_海底捞夜市价格
8月10日消息,山东青岛海底捞在夜市摆摊卖火锅引发关注。据报道,这个海底捞摊位距离乐客城海底捞门店209米,步行3分钟。由海底捞门店自营,未开放加盟。每日优鲜只有北京有吗海底...
日期:08-10
亚都除湿机好用吗_为什么我劝你一定要拥有亚都除湿机?
  梅雨季节的到来,对于早已习惯了潮湿的南方人而言,并不感到陌生,甚至大家都早早地做好了应对准备,开启除湿模式,与亚都除湿机一起共同度过这个梅雨季节,与亚都除湿机一起拥抱...
日期:07-14
Redmi K70 Pro代号曝光,5000万像素主摄,骁龙8 Gen 3处理器「红米k740」
今天上午,数码博主@数码闲聊站曝光了一款代号为“Manet”的新机。据他透露,这款新机将搭载高通SM8650处理器,配备5000万像素主摄镜头和3.2倍长焦镜头。 另外,另一位数码博主@体...
日期:09-05
身负奇功闯江湖——360杀毒3.0版火热评测(武侠体)
  在网络安全江湖,360家族无疑是如今最富盛名的武林世家,门下子弟个个都是好手,360安全卫士、360安全浏览器、360安全桌面……如今,360杀毒这一派系又有新的传人产生,他就是36...
日期:07-22
创峰会·南京站落地,南京建邺携手阿里云创新中心聚力智慧建设
  南京是创新名城,美丽古都,是东部地区重要中心城市,长三角特大城市,国家创新型城市。建邺作为南京最具现代化和国际化的城市客厅,拥有现代化的城市设施、充满活力的城市社区...
日期:12-01
中国移动能力开放平台「中国移动能力中台:用数智力量筑牢反诈“防火墙”」
通信世界网消息(CWW)近年来,随着数字化发展,以电信网络诈骗为代表的新型犯罪呈现高发多发态势,加上新型诈骗手法层出不穷,已成为危害人民群众财产安全的焦点问题。中国移动能力中...
日期:07-07
鲁大师3月安卓新机性能/流畅榜来了:魅族/OPPO扛大旗_鲁大师3月手机流畅度
国内知名的手机性能评测机构鲁大师,今天公布了2023年3月的新机性能与流畅度榜单。在多款搭载第二代骁龙8处理器的新机中,OPPO Find X6 Pro以1405592分稳居榜首,而魅族20系列的...
日期:04-06
十年磨一剑,打造国产化云服务全生态 华云数据董事长许广彬荣列“2020中国软件和信息服务业十大领军人物”
  作者:新华日报   2020年12月18日,以“筑强软件之基 拥抱数字蝶变”为主题的ICT影响力峰会·2020(第十届)软件大会在北京隆重召开。大会由中国电子信息产业发展研究院指...
日期:07-16
微软首席产品官 Panos Panay:Win11 让 PC 适应“后疫情时代”
  2015 年 7 月,微软发布了 Windows 10 正式版。并强调 Windows 10 是 Windows 操作系统的最后一个版本。6 年后的今天,微软推送了 Windows 11,符合条件的 Windows 10 PC 可...
日期:07-17
2800多个热搜,近600篇10W+…看各路大神如何《狂飙》!
声明:本文来自于微信公众号 西瓜数据(ID:xiguashuju),作者:西楼,授权转载发布。距离《狂飙》大结局已有一周,但热搜依旧不断,全网热度依然不减。2月7日下午的热搜榜前15中,有6个与《狂...
日期:02-08
拳头宣布推出新客户端:整合旗下游戏,10 月 4 日全面上线_拳头旗下手游
  9 月 17 日消息 据拳头公司官方推特,拳头游戏将推出一款全新的客户端。新的客户端将于 9 月 20 日开始分批推出,10 月 4 日面向全部玩家上线。   拳头近些年来推出了...
日期:07-17
苹果led屏幕供应商「替代OLED!曝苹果研发MicroLED屏:2026年商用」
快科技7月6日消息,据媒体报道,过去十年苹果投入了超过10亿美元,用于研发MicroLED屏。苹果希望减少对三星的依赖,同时加强对显示面板关键零部件的控制权。最新报道指出,苹果将在20...
日期:07-06
日本强推“排污入海”!学界:全球海洋生态将面临核污染水风险
4月25日消息,日本前年决定排放因地震导致福岛核电站受损留下的核污水入大海,虽然中国、韩国及太平洋岛国等多国表示反对,但日本执意排放。据央视财经报道,对于日本核污染水排海...
日期:04-25
小米13 Ultra高端之路成了!雷军摆庆功宴「小米13概念机」
小米创办人雷军表示,小米13 Ultra首月满意率超过99%,在高端化战略上取得了新的进展。为此,小米13 Ultra项目组举办了庆功晚宴,庆祝这一成就。毛铺草本15年酒多少钱一瓶我国成功...
日期:05-27
震旦的打印机怎么样「高效数字办公,租赁震旦打印机,送PaperPort电子文件秘书」
伴随着数字化时代的到来,打印机已经成为了现代办公环境中必不可少的设备之一。为了满足用户不断升级的需求,震旦推出黑白和彩色多功能复合机优惠租赁活动!此外,租赁还可以享受...
日期:04-25