您的位置:首页 > 互联网

全世界机器人共用一个大脑,谷歌DeepMind已经完成了第一步_机器人有几个脑袋

发布时间:2024-01-26 15:27:17  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:佳琪,授权转载发布。

过去一年,生成式人工智能发展的核心关键词,就是大。

人们逐渐接受了强化学习先驱 Rich Sutton 充分利用算力大力出奇迹的思潮,庞大的数据量是 AI 模型展现出惊人智慧的核心原因。数据规模越大、质量越高、标注越细,模型就能了解到更全面的世界知识,从而拟合出更加智能的结果。

那么,为什么人工智能的进展还没有转化成科幻片中那种全能管家机器人呢?能清理桌子、叠衣服、做早餐的机器人在哪里?

一个重要的原因是机器人领域很难大力出奇迹,生成式 AI 的文字或图片训练数据在网络上就能轻松获取,而机器人的训练数据通常是由研究人员在实验室里根据具体的任务一个一个地创建的。这个过程往往漫长而又乏味。

如果没有大量数据的支撑,机器人将无法脱离实验室,无法独立执行做早餐等任务。令人惊艳的机器人研究成果,往往也只是某一个实验室研发出来的某一款机器人在执行某几项任务,对于其他实验室的机器人研究,可参考性有限。

特斯拉机器人 Optimus 在远程操控下叠衣服。

如果有一个汇集了许多机器人经验的课本,新机器人可以从中一次性学习,让机器人共享训练数据。这种做法是否能突破手动让机器人执行新任务带来的时间与精力限制?

为了得到问题的答案,由谷歌 Deepmind 发起,来自北美、欧洲、亚洲的34个机器人实验室共同启动了 RT-X 项目。RT-X 项目的目标是汇集数据、资源和代码,让通用机器人走进现实。该项目的主要参与者加州大学伯克利分校的 Sergey Levine 教授和 Google DeepMind 的资深科学家 Karol Hausman 联合撰写了THE GLOBAL PROJECT TO MAKE A GENERAL ROBOTIC BRAIN(打造通用机器人大脑的全球合作项目)一文,总结了 RT-X 项目取得的进展。

RT-X 项目至今都做了哪些努力,让我们一起来看看。

造通用机器人,要从哪方面下手?

人类拥有强大的学习能力。我们的大脑在经过一点练习后,就可以指挥四肢行动,比如拿起工具、骑自行车或上车这种动作。换句话说,也就是我们的躯体发生了一些变化,但大脑能够理解。RT-X 的目标是让机器人也拥有这种思维方式:使单个深度神经网络能够控制许多不同类型的机器人。这种能力称为交叉体现。

然而交叉体现的问题在于,经过机器人数据训练的深度神经网络能否驾驭各种各样的机器人。一旦这些外观、物理特性和能力截然不同的机器人能被单个神经网络大一统,那么将释放出大型数据集对机器人学习的潜力。

RT-X 项目发布的 Open X-Embodiment 数据集规模庞大,目前它含有22种机器人的近100万次试验数据,其中包括市场上常用的机器臂。像拾取和放置物体、组装以及电缆布线这种专项任务的数据也都包含在其中,共有约500种不同的操作和数千种与其他物体的互动数据。Open X-Embodiment 是目前最大的真实机器人动作开源数据集。

一个惊喜的发现是,大模型从大型数据集学习的思路也适用于机器人领域。使用相对简单的机器学习方法,利用与当前 LLM(如 ChatGPT)相同的模型,研究者能够根据 Open X-Embodiment 数据集训练普遍的机器人控制算法。就像一个人可以通过大脑学习开车或骑自行车一样,在 Open X-Embodiment 数据集上训练的模型可以简单地通过机器人自带的摄像头识别模型所控制的机器人类型。例如摄像头识别出的是 UR10工业臂,模型将发送适合 UR10的命令。如果识别出的是低成本的 WidowX hobbyiest 机械臂,模型也会相应地调整指令。

谷歌基于 Open X-Embodiment 数据集训练出来了 RT-X 模型。为了测试机器人大模型的能力,参与 RT-X 项目的五个实验室分别对其进行了测试。他们将 RT-X 的训练结果与各自独立开发的最佳控制系统进行了比较。每个实验室的测试项目都涉及其机器人原本的研究任务,如拾取和移动物体、开门和通过夹子布线等。值得注意的是,统一的大模型超越了各个实验室的最佳方法,使机器人完成任务的平均成功率提高了约50%。

更惊人的发现是,如下列动图所示,RT-X 模型可以运用其他机器人的经验来提高不同环境中正在被训练的机器人的鲁棒性。

在同一个实验室中,即使机器人在执行相同的任务,环境稍微不同,它也有可能无法成功完成同一动作。怪不得马斯克要强调在换了衣服、盒子和桌子和之后,特斯拉 Optimus 在未来肯定能学会叠衣服呢。

因此,能够借鉴其他机器人在其他情况下的经验有助 RT-X 模型控制的机器人应对变化和特殊情况。

搭建可以自主推理的机器人

受到以上成果的鼓舞,谷歌 DeepMind 的研究团队继续研究了如何如何将这些数据整合到一个具有更加深入的推理能力的系统中。仅从机器人数据中很难学习到复杂的语义推理。如在罐子和橘子之间移动苹果这个复杂任务,需要机器人理解图像中物体之间的语义关系、基本常识还有其他与物理能力不直接相关的符号知识等等。

为了解决复杂语义推理的问题,研究人员决定加入另一个庞大的数据源:全网的图像和文本数据。他们使用了一个现有的大型视觉语言模型,该模型已经精通许多需要理解自然语言和图像之间联系的任务。它是一个类似 ChatGPT 或 Bard 这样公开可用的模型。这个模型可以根据图片输入做出回答,能够解决视觉问答、字幕以及其他开放式视觉理解任务之类的问题。

Counterpoint:二季度华为手机市场份额第

研究团队发现,经过训练,生成式 AI 模型也能输出机器人动作以响应机器人命令(如把香蕉放在盘子上),机器人继而根据命令执行动作。基于这些发现,谷歌 DeepMind 研究团队将这种方法应用到 Open X-Embodiment 数据集中。

为了评估从互联网获取的智能和来自全世界的机器人数据的结合情况,谷歌 DeepMind 用他们的移动机械臂对 RT-X 模型进行了测试。研究人员对它进行了最严格的通用化基准测试。这要求机器人掌握识别物体、成功操纵物体、根据复杂的文本命令、整合文本和图像信息、进行逻辑推理等能力。这种能力正是人类成为通才的原因之一。

小鹏汽车何小鹏简介

研究人员进行了两组评估。他们使用了一个不涉及谷歌的机器人、不包括多机器人数据的模型作为基准。事实上,由于 Open X-Embodiment 数据集中有超过10万次演示来自谷歌 DeepMind 的机器人,数据集中其他机器人数据是否起效,这个问题的答案仍然未知。因此,他们又尝试了基于 Open X-Embodiment 整体数据的评估。

机器人统领人类

对谷歌机器臂而言,将苹果移到易拉罐和橘子之间是最难的评估任务之一。这是一项涉及空间关系推理的任务。在将一个物体放在写着解为2+3的纸上这项任务中,它还需要解数学题。这些挑战旨在测试 RT-X 模型赋予机器臂的推理以及得出结论的能力。

在这种情况下,机器臂推理能力(例如推理出 之间 和 上面 的含义)来自于视觉语言模型训练中的全网数据,而将推理输出应用于机器人行为的能力(即使机器臂向正确方向移动的命令)来自 RT-X 对机器人数据的训练。下面的视频展示了一个评估实例,研究团队要求机器人执行一项未包含在训练数据中的任务。

即使没有经过专门训练,谷歌的机器臂也能够遵循指令在罐子和橘子之间移动苹果。这种能力是由 RT-X 实现的,这是迈向通用机器人大脑的第一步。

虽然这些任务对人类来说可能不值一提,但对通用机器人来说却是一大难题。如果没有具体的机器人演示数据清楚地说明之间、附近和上面是什么意思,即使共享了机器人的训练数据,基于此的系统也无法弄清楚这些命令的含义。

通过整合视觉语言模型中的全网知识,RT-X 的完整系统为机器人研究解决了很多问题。研究团队发现共享机器人数据的加入使谷歌机器人的泛化能力提高了三倍。这表明,Open X-Embodiment 数据集不仅有助于机器人获得各种物理技能,还有助于更好地让与物理动作与视觉语言模型中的语义和符号知识联系起来。这些联系使得机器人具备了一定的常识。有朝一日,机器人能够基于这些方法理解给我拿早餐这种复杂和微妙的命令,并为你端上一份热乎乎的早饭。

RT-X 项目的下一步

RT-X 项目展示了机器人社区凝心聚力之后取得的巨大进展。得益于跨地区、跨机构的努力,谷歌 DeepMind 汇集了多样化的机器人数据集,进行了全面的多机器人评估。此前,这对于任何单一机构都是不可能做到的事。RT-X 的发起者希望能有更多的研究人员入这项合作,分享他们的数据。他们还将开发工具、模型和基础设施来支持具身智能研究。

就像大型语言模型已经掌握了广泛的基于语言的任务一样,RT-X 项目目前的进展已经提供了一种大型具身机器人模型改变机器人领域的可能性。在未来,谷歌 DeepMind 将会使用相同的基础模型作为许多现实中的机器人做任务的基础。也许有一天,只通过微调,甚至只向预训练的基础模型输入提示,机器人就能获得新技能。你可以像使用 ChatGPT 一样,无需告诉机器人如何使用裱花袋或要写什么字体,机器人就能在一个蛋糕上做生日快乐的裱花。

多个机器人

随着越来越多的实验室参与 RT-X 项目,谷歌 DeepMind 希望进一步推进单个神经网络控制多台机器人的可能。未来他们可能将添加生成的各种模拟数据,加入更多种类的机器人(例如有不同数量的手臂或手指的机器人),引入不同的传感器套件(如深度相机和触觉传感器),结合操纵和运动行为等。

也许在未来,通用化的机器人大脑可以驱动任何机器人,全球所有机器人都可以从共享的数据中受益。


返回网站首页

本文评论
可上线向公众提供服务 「百度字节等8家公司大模型产品通过生成式人工智能备案」
IT之家 8 月 31 日消息,百度、字节、中科院旗下紫东太初、百川智能、智谱华章等 8 个企业 / 机构的大模型位列第一批名单,可正式上线面向公众提供服务。百度深夜宣布,旗下 AI...
日期:09-16
朋友30岁癌症去世生前说他反而开心引热议:网友感慨被父母强压太无奈
近日,博主大连老湿王博文分享他的30岁的朋友癌症去世生前说他反而很开心,并表示终于解脱了的故事引起网友热议。按照这位博主的描述,他的一个30岁的朋友癌症去世生前说他反而很...
日期:10-31
成为光,绽放希望,传递服务价值和力量  ——记“中央企业青年文明号”湖北武汉联通江岸科技馆营业厅
通信世界网消息(CWW)“您好!欢迎您来到联通营业厅,有什么可以帮到您?”在武汉市民中流传着这样一句话:“武汉联通服务最热情,科技馆营业厅的菇凉伢(武汉话:女孩儿)最贴心。”伴随着一...
日期:06-20
流畅好用适配快!ColorOS 14新体验,打造更省心、更便捷的智慧系统_coloros 1.4
在2023 OPPO开发者大会上,用户期待已久的ColorOS 14系统终于发布。据了解,ColorOS 14在自研潘塔纳尔系统、AndesGPT、ColorOS 超算平台三大技术加持下,为用户带来了更为智慧、...
日期:11-18
刘骏正式加入人民搜索网络股份公司担任首席科学家
  近日,前谷歌中国工程研究院副院长刘骏正式加入人民搜索网络股份公司担任首席科学家,并将全面领导公司技术相关部门。同时,刘骏及其技术团队将与人民搜索合作开发新一代大...
日期:07-26
直播卖的玉是真的吗「直播间卖的玉到底是真是假 品牌方:对方造谣,已报警」
近日,知名打假人王海发布视频,质疑李佳琦卖假和田玉,并声称一名消费者购买了“鸳鸯金楼和田玉项链”却发现其并非真正的和田玉。消费者将产品送至国家珠宝玉石检验集团有限公司...
日期:10-27
联想集团CES 2023发布Chronos设备加码元宇宙 无需穿戴设备即可创建虚拟分身
1月5日,一年一度的全球科技展会CES国际消费电子展2023召开。各大厂商纷纷发布其前沿创新类产品,展现全球消费电子领域的新风向。全球科技巨头联想集团在CES 2023发布全球第一...
日期:09-21
美国太空部队再向SpaceX和ULA授予21次发射任务 总价值25亿美元_美国太空部队正式成立
11月2日消息,美国太空部队表示,将21次火箭发射任务分给了SpaceX和联合发射联盟(ULA),总合同价值约25亿美元。这是国家安全太空发射计划(NSSL)第二阶段任务的最后一批订单。本周二,美...
日期:11-02
跨端智联!Redmi Watch 4官宣搭载小米澎湃OS_小米redmi watch评测
11月28日 消息:小米将于11月29日19点发布Redmi Watch4智能手表,这款手表具有大屏、高亮度、低功耗、长续航等特点。比rtx 3060更好的显卡除此之外,Redmi Watch4还将搭载全新的...
日期:11-28
RedmiK70Pro维修价格出炉,主板要2780元,屏幕一点不贵_红米7修内屏多少钱
不久前,Redmi再次推出新机,K70系列全面进化,一口气带来三款机型,1999元的起售价也吸引到了无数网友关注。作为这个系列中的超大杯版本,K70Pro也是备受关注,它不仅搭载三代骁龙8移...
日期:12-11
复工首日,看华为云WeLink复工八宝箱有啥?
  当下,全国各地已经按下“复工”键。在经历一再延期之后,2月17日的周一终于成为众多企业真正复工的第一天。为了保证复工后能够对疫情进行有效防控,尽可能减少员工的交...
日期:06-15
放弃iPhone 14增产 苹果股价大跌:带崩美国半导体公司_苹果日报 股价
苹果的iPhone 14系列手机已经上市,高阶的Pro系列销量倒是火爆了一阵,然而标准版iPhone 14销量不佳。据报道,标准版iPhone以往是出货的主力,然而今年表现并不好,甚至开售当天价格...
日期:10-06
元旦美团旅游预订量增长超500%  哈尔滨、重庆、成都等为热门目的地_网易科技
12月28日消息,据美团、大众点评数据,截至12月27日,2024元旦假期的旅游预订单量(含住宿、门票、交通等)同比增长超500%,TOP5目的地城市分别是哈尔滨、重庆、成都、长沙和南京。2024...
日期:12-29
AI入侵B站鬼畜区!网友辣评:不如传统“活字乱刷术”
12月5日 消息:11月27日,B站UP主“女孩为何穿短裙”突破传统,投稿一则使用AI合成语音制作的鬼畜视频,标志着AI视频制作正式进入B站鬼畜区。视频播放量截至目前已达167.3万,获得14...
日期:12-05
特斯拉36.5.1更新内容「特斯拉推送2022.36.6版本更新 新增能量回收制动选项、优化触摸屏」
11月3日 消息:昨日晚间,特斯拉发布了2022.36.6版本更新。在该版本中,特斯拉新增了能量回收制动、驾驶室过热保护、动态制动灯等功能。以下为具体更新内容:1、优化车辆显示稳定...
日期:11-07
Stripe 利用 GPT-4 来优化用户体验和改进工作流程
3月15日消息:今年早些时候,Stripe要求100名员工做一件非常不寻常的事情:停止他们的日常工作,转而使用OpenAI最新一代的语言学习模型GPT-4为支付平台设计特性和功能。来自支持、...
日期:03-15
谷歌正在考虑开发移动支付和广告系统_谷歌正在考虑开发移动支付和广告系统支付
  1月5日消息,消息人士透露,谷歌正在考虑开发一套移动支付和广告系统,使得用户只需挥动手机就可完成消费。   该服务基于NFC(近场通讯技术)开发,可能于今年首次亮相。   谷...
日期:07-25
微软、OpenAI 和 Cohere 等公司已转向使用合成数据训练人工智能模型「微软人工智能平台」
7月20日消息:人工智能公司 Cohere 的首席执行官 Aiden Gomez 表示,合成数据已经被用来训练人工智能模型。由于 Reddit 和 Twitter 等公司对于其他公司抓取其数据收费高昂,微软...
日期:07-20
北太天元V3.0来了!全新国产自主可控科学计算与系统仿真一体化在渝发布
(原标题:北太天元V3.0来了!全新国产自主可控科学计算与系统仿真一体化在渝发布) 9月23日,第二届数学促进经济社会发展论坛(2023...
日期:09-24
苹果13官网降价「苹果中国开启新年福利:iPhone 13等降价优惠千元!」
很快新年就要来了,苹果中国也是开启了优惠活动,iPhone 13等也都在列。3d全曲面玻璃机身什么意思iphone是一体屏吗从官方公布的细节看,2022年12月30日至2023年1月2日用指定支付...
日期:12-27