您的位置:首页 > 互联网

斯坦福炒虾机器人原班人马新作!最强大脑Gemini加持,机器人炫技导航玩出新花样

发布时间:2024-07-12 19:22:23  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】斯坦福炒虾机器人团队时隔半年再出新作,谷歌最强Gemini1.5Pro加持,Mobility VLA让机器人在836平方米的办公室里轻松导航。

还记得年初爆火的斯坦福炒虾机器人吗?

时隔半年,原班人马联合谷歌研究人员,重磅推出全新机器人自主导航的基础模型——Mobility VLA。

与以往不同的是,新架构得到了谷歌迄今为止最强Gemini1.5Pro大模型的加持。

Gemini1.5Pro不仅拥有100k长上下文,还具备了强大的多模态能力。给机器人安上最强大脑,可想而知,用在RT-2机器人身上有多么无敌。

通过观看9000平方英尺谷歌办公室视频之后,RT-2机器人建立起了对整个环境感知的概念。

接下来,就是让RT-2炫技的时刻了。

首先,让RT-2带自己去一个能画东西的地方。

戴着一个可爱的的黄色领结机器人回应道,好的,给我一分钟,让我用Gemini稍加思考。

不一会儿功夫,它就把人类带到一块墙壁大小的白板前。

然后,它再次收到新的命令,按照白板上指示的路线图,抵达蓝色区域。

RT-2再次思考了片刻,然后走了很长一段路,最终来到了机器人测试区。

麦当劳抖音活动

不仅如此,研究人员主动带领RT-2参观了Lewis的办公桌,以及临时办公桌区域之后,再要求RT-2带路。

可见,RT-2有着强大的记忆能力,能够准确识别位置。

50条指令,完成率90%

RT-2能够流畅完成以上任务的奥秘就在于,利用Genimi训练机器人的导航系统。

具体做法是,拍摄指定区域(如家庭或办公空间)的视频导览,让Gemini1.5Pro加持的机器人观看视频以了解环境。

接下来,利用Mobility VLA将环境理解和常识推理能力结合起来。

然后,机器人可以根据观察和学习到的情况,对书写和语音的指令以及手势做出反应。

例如,在用户展示一部手机并询问在哪里可以充电后,机器人会引导用户找到电源插座。

DeepMind表示,在一定空间内,用Gemini驱动的机器人,在发出50多条用户指令后,完成指令成功率高达90%。

研究人员还发现,Gemini1.5Pro能让机器人规划如何完成导航以外的指令。

例如,一位小哥桌上摆放着两排喝光了的肥宅快乐水罐子,还想再来一瓶,于是向机器人询问他最喜欢的饮料是否有货。

研究小组说,Gemini指引机器人应该导航到冰箱,检查是否有可乐,然后返回用户处报告结果。

DeepMind表示,团队将进一步研究这些机器人反馈的结果。

目前,机器人处理这些指令需要10-30秒的时间,对于实际应用来说太慢了,在响应速度方面仍有提升空间。

Mobility VLA

在导航研究领域,一个难以实现的目标是构建一个能够理解自然语言和图像等多模态指令,并执行有效导航的智能体。

ⅰ厘米等于多少公分

为了达成这一目标,研究人员提出了一类广泛应用的导航任务——带有演示路线的多模态指令导航(Multimodal Instruction Navigation with demonstration Tours,MINT)。

在这种任务中,环境信息通过预先录制的演示视频提供。

论文地址:https://arxiv.org/abs/2407.07775v1

为了解决MINT任务,研究人员进一步提出了一种分层的视觉-语言-行动(Vision-Language-Action,VLA)导航策略——Mobility VLA。它结合了长上下文VLMs的环境理解和常识推理能力,以及基于拓扑图的强大低层导航策略。

其中,高层策略使用长上下文VLM,将演示路线视频和多模态用户指令作为输入,在演示视频中找到目标帧。接下来,低层策略利用目标帧和离线构建的拓扑图,在每个时间步生成机器人动作。

在一个836平方米的真实环境中的评估结果表明,Mobility VLA在以前未解决的多模态指令上,具有很高的端到端成功率。(例如,我应该把这个放在哪里?同时拿着一个塑料箱)

如图1所示,Mobility VLA是一种分层导航策略,包含在线和离线两个部分。

离线阶段,会从演示路线(N,F)中生成一个拓扑图G。在线上,高层策略会使用演示路线和多模态用户指令(d,I)来找到导航目标帧的索引g。

接下来,低层策略会利用拓扑图、当前相机观测O和目标帧索引g,为机器人在每个时间步生成一个路径点动作a,以便机器人执行。

演示路线和离线拓扑图生成

首先需要的是环境演示路线,这个可以由人类用户通过远程操作提供,或者只需在环境中行走时用智能手机录制视频即可。

然后,Mobility VLA会离线构建一个拓扑图G=(V, E),其中每个顶点vi∈V对应于演示路线视频(F, N)中的帧fi。

通过使用COLMAP这个现成的结构-从-运动(structure-from-motion)管线来确定每帧的近似六自由度(6-Degree-of-Freedom)相机姿态,并将其存储在顶点中。

接下来,如果目标顶点在源顶点前面(距离源顶点的姿态小于90度)并且在2米以内,则向G中添加一个有向边。

与传统的导航管线相比(例如,先映射环境,再识别可通行区域,最后构建PRM),扑图方法要简单得多,因为它能根据游览轨迹捕捉环境的一般连通性。

使用长上下文多模态VLM进行高层目标查找

在在线执行过程中,高层策略利用VLMs的常识推理能力,从演示路线中识别出符合各种多模态、口语化且通常模糊的用户指令的导航目标。

为此,研究人员准备了一个由交错文本和图像组成的提示P(F,N,d,I)。

以下是表1中关于多模态用户指令我应该把这个放在哪里?的具体P示例:

Youarearobotoperatinginabuildingandyourtaskistorespondtotheusercommandaboutgoingtoaspecificlocationbyfindingtheclosestframeinthetourvideotonavigateto.Theseframesarefromthetourofthebuildinglastyear.[Frame1Imagef1]Frame1.[Framenarrativen1]...[FramekImagefk]Framek.[Framenarrativenk]Thisimageiswhatyouseenow.Youmayormaynotseetheuserinthisimage.[ImageInstructionI]Theusersays:WhereshouldIreturnthis?Howwouldyourespond?Canyoufindtheclosestframe?

此时,VLM会返回一个整数形式的目标帧索引g。

海南旅游控股王文

使用拓扑图实现低层目标到达

一旦高层策略识别出目标帧索引g,低层策略(算法1)就会接管,并在每个时间步生成一个路径点动作(公式1)。

对于每个时间步,使用一个实时的分层视觉定位系统,来基于当前的相机观测O,来估计机器人的姿态T和最近的起始顶点vs∈G。

这个定位系统会根据全局描述符找到拓扑图G中的k个最近候选帧,然后通过PnP计算出机器人的姿态T。

接下来,通过Dijkstra算法(第9行)在拓扑图上找到从起始顶点vs到目标顶点vg(即目标帧索引g对应的顶点)之间的最短路径S。

最后,低层策略会返回一个路径点动作,该动作只是路径S中下一个顶点v1相对于当前姿态T的位移∆x,∆y和旋转角度∆θ(第10行)。

实验

为了探究Mobility VLA的性能,研究人员针对以下三个问题进行了实验设计。

RQ1:Mobility VLA在现实世界的MINT中表现如何?

RQ2:Mobility VLA是否因为使用了长上下文VLM而优于其他方案?

RQ3:拓扑图是否必要?VLM能否直接生成动作?

演示路线:通过使用游戏手柄远程操作机器人来收集演示路线。所有走廊都从相反方向走了两次。最终的路线大约16分钟长(每秒1帧,共948帧),并且在路线中添加了每个人的临时办公桌和Lewis的办公桌的叙述,分别在5:28和7:14帧,以实现个性化导航。

多模态用户指令:收集了4个类别共57条用户指令。包括:20条无须推理的指令(RF),15条需要推理的指令(RR),12条关于小物件的指令(SO),以及10条多模态指令(MM)。

RQ1:Mobility VLA在真实环境中强大的端到端性能

- 极高的端到端成功率

表2显示,Mobility VLA 在大多数用户指令类别中具有高端到端导航成功率,包括以前难以实现的需要推理和多模态指令,并且还具有合理的SPL(成功率加权路径长度)。

然而,在小物件类别中的成功率显著较低。

最后,Mobility VLA 成功地在演示路线中加入了个性化叙述。在响应基本相同但来自不同用户的指令时,它能够正确地导航到不同的位置。

- 稳健的低层目标到达能力

表2还显示了Mobility VLA在现实世界中低级目标到达策略的稳健性,其成功率达到了100%。

值得注意的是,演示路线是在实验前几个月录制的,当时许多物体、家具和光照条件都与实验时不同。

- 大规模仿真确认高端到端成功率

为了进一步探索端到端性能,研究人员利用仿真来扩大评估数量。

具体来说,通过使用NeRF创建办公室环境的高保真仿真重建,并针对20个语言指令任务进行评估,每个任务有50个随机起始姿态。

实验结果显示,高层目标找到率为90%,低层目标到达率为100%,总共成功执行了900次端到端操作。

- 使用手机导航进行家庭环境的泛化

为了展示Mobility VLA的通用性和易用性,研究人员在一个真实的类家庭环境中进行了概念验证实验。其中,演示是通过Google Pixel6手机录制的。

结果显示,成功率为100%,SPL为0.87。这表明Mobility VLA:

1. 无论在什么环境下都表现良好;

2. 极易于部署。(用户只需使用手机录制环境导航,上传给机器人后即可开始下达命令)

研究人员表示,这种通用性和易用性在机器人导航中是前所未见的。

RQ2:长上下文多模态VLM在高层目标寻找方面更优

- Mobility VLA优于其他方法

表3显示,Mobility VLA在高层目标找到成功率方面显著高于其他方法。

鉴于其低层目标到达成功率为100%,这些高层目标找到成功率也代表了端到端的整体成功率。

- 使用长上下文VLM处理高帧率导航视频是成功的关键

表4显示,随着视频帧率的降低,高层目标找到的成功率也随之下降。(因为较低的帧率会错过重要的导航目标帧)

此外,在比较最先进的VLM时,只有上下文长度高达1M token的Gemini1.5Pro,才取得了令人满意的成功率。

图3展示了,在给出我想要更多这个的多模态指令和桌子上几个可乐罐的图片时,Mobility VLA能够正确识别出包含冰箱的帧,并引导用户前往。

而基于CLIP的检索方法则找到一个包含水瓶和一些杂物的桌子区域,认为其最接近完整指令图像,因为使用Owl-ViT很难从指令图像中提取出用户想要什么。

GPT-4o错误地尝试找到最接近指令图像的帧,而GPT-4V因无法找到包含饮料的帧而拒绝给出帧号。

最后,纯文本方法无法理解这个是指可乐罐还是办公室环境,因为它仅依赖于指令图像的文字说明。

RQ3:拓扑图对成功至关重要

- 拓扑图对导航成功至关重要

表5展示了Mobility VLA与直接提示VLM输出路径点动作相比,在模拟中的端到端表现。

0%的端到端成功率表明,如果没有拓扑图,Gemini1.5Pro无法在零样本(Zero-shot)情况下导航机器人。而且,Gemini1.5API需要在每次推理调用时上传所有948张图像,导致每步运行时间高达26秒,而机器人仅移动1米。

相比之下,Mobility VLA的高层VLM需要花费10-30秒找到目标索引,然后机器人使用低层拓扑图导航到目标,从而形成一个高度稳健且高效(每步0.19秒)的MINT解算系统。

vivoz5x电池多大容量

谷歌的十年血泪史

机器人时代已经到来,AI的下一波浪潮将是物理AI,机器人将日益融入我们的日常生活中,一切都将机器人化。

老黄在6月的演讲中已经预判了未来人形机器人发展的大好前景。

炫酷的赛博朋克风人形机器人正在吸引亚马逊、谷歌、Nvidia和微软等巨头科技公司的密切关注和数亿元的投资。

马斯克也将特斯拉的未来押注在机器人上,预测机器人Optimus擎天柱可能会把市值推向25亿美元。

或许未来不到十年内,人们就可以给父母买一个机器人作为生日礼物了。

马斯克此话一出,想到自己顶着烈日取外卖、辛辛苦苦做家务或者满世界找钥匙的你是不是感觉腰杆一松?

其实,谷歌的机器人制造并不是一路顺利。

早在2012到2013年间,谷歌就一口气收购了包括波士顿动力在内的11家机器人公司。

当时,正是安卓系统创始人Andy Rubin在管理谷歌机器人产品线,意识到机器人发展前途无限的谷歌试图加速AI机器人的商业布局。

在当时以软件见长的谷歌在并不擅长的硬件领域,选择用收购的方式来最大程度整合技术资源。

谷歌也一度认为,只要有了硬件基础,再加以最拿手的软件一结合,就能解决机器人领域的技术壁垒。

然而现实运作中却残酷地发现,机器人的运行准确度远远达不到要求。

比如你是一位公司大老板,一位成熟技工工作准确率能达到98%,而机器人只有不到90%。

这时你会选择雇佣一位成熟技工还是购买昂贵且易出错的机器人,并再雇佣一个人监督调整机器人的工作?

当前机器人的准确度可以达到80%-90%,为了最后的10%投入大量资金和人力,却看不到回报。

Andy Rubin爆出丑闻后离开了谷歌,当初收购的企业也分崩离析,波士顿更是以低于当时收购估值三倍的价格卖出。

由此可见,软件和硬件设施的制造以及两者的结合,成为机器人制作领域最为头疼的难题。

那么,在AI大模型热潮之下,这是否会为机器人制造带来曙光?有学习能力的机器人能否实现?

参考资料:

https://techcrunch.com/2024/07/11/watch-a-robot-navigate-the-google-deepmind-offices-using-gemini/

https://www.theverge.com/2024/7/11/24196402/google-deepmind-gemini-1-5-pro-robot-navigation

https://arxiv.org/abs/2407.07775v1

https://x.com/zipengfu/status/1811448045680382281


返回网站首页

本文评论
1688建成国内最大工业互联网产品标准数字库「工业互联网数据标识」
通信世界网消息(CWW)8月3日,1688宣布,其工业品专业标准库覆盖SKU(最小存货单元)数突破1亿。前不久,上述标准库入选了中国互联网协会联合工信部发布的2023年度“互联网助力经济社会...
日期:08-04
寒潮预警!大风降温预报图冻成紫蓝一片:局地降温幅度达18度_寒潮蓝色预警:局地降温超16度
即将进入12月,天气也是一天比一天凉了,这不,今早06:00,中央气象台继续发布了寒潮黄色预警。11月27日至30日,寒潮天气将自西向东影响我国大部,造成剧烈降温、大风、沙尘和大范围雨...
日期:11-28
玄讯智研:AI平台如何赋能新品快速上市铺货
  在新品导入区域市场的过程中,首次的铺货效果如何?能否达到预期目标?往往是决定着新品在区域市场成败的最重要的因素之一。对于很多经销商来说,新品铺货工作能做得很快,但...
日期:07-13
火狐浏览器68安卓版_火狐浏览器v75正式版发布:2.5亿用户喜迎升级
  FireFox(火狐)浏览器本周发布v75正式版,这是火狐进入四周一次大版本迭代节奏后上线的首个稳定版,此前,火狐采用的是每六周一次更新。   Mozilla称,火狐目前的活跃用户有2...
日期:06-24
每日优鲜股票大跌「中概股周四收盘多数下跌 每日优鲜跌超18% 蔚来跌超10%」
  北京时间30日凌晨,美股周四收跌,标普500指数创年内最低收盘点位及2020年以来的盘中新低。英国央行紧急救市行动对市场的提振作用渐渐消失,避险情绪重新回归。投资者仍关注...
日期:10-03
当贝盒子B1怎么看电视直播_当贝智慧盒子Z1怎么看电视直播?看电视台直播的方法分享
  不少用户在618年中大促时期入手了当贝智慧盒子Z1,虽然开机无广告,性能也非常强悍,但是家里人想看普通的电视台直播,该如何操作呢?   其实安装个第三方软件就可以了,下面以...
日期:10-19
女子刚拿驾驶证就记满12分 直呼:我怎么对得起我的教练「女司机刚拿驾照,如何上路」
风吹日晒下,一名女子好不容易拿到了驾驶证,结果还没捂热就被记满12分吊销,可惜世界上没有后悔药。7月22日凌晨两点多,浙江台州椒江区一交叉路口,女子酒精呼气检测值达166mg/100ml...
日期:08-05
中国低速电动车风靡非洲 客户:我也想有一台“老头乐”_非洲电动车市场
在农村或者是城郊地区,国产老头乐”曾风靡一时,而其因为便宜、实用等特点,如今也驶向非洲街头,成为当地交通环境的重要参与者。11月26日消息,据全球知名清洁能源媒体CleanTechnic...
日期:11-28
当当网创始人李国庆宣布成功离婚,迎来新的人生篇章_当当网前老板李国庆
**本文概要:**- 当当网创始人、响珰珰董事长李国庆在广东卫视财经郎眼特别节目《问答八方》中透露离婚消息。- 李国庆表示感觉一身轻,现在是自由身,计划重新开始爱情和家庭生...
日期:01-01
高德地图上线北斗卫星定位查询系统_高德地图是北斗卫星
11月17日消息,近日,高德地图上线了北斗卫星定位查询系统,用户在定位导航时可查看当前所调用的北斗卫星数量,以及具体编号、方位角、高度角、频点、信号强度相关详细信息。除此之...
日期:11-20
港股科技股涨跌不一:网易收跌超6%,快手涨超4%_港股快手股价今日
查看最新行情   讯 8月19日下午消息,香港恒生指数收涨0.05%,本周累跌2%;恒生科技指数跌0.01%,本周累跌3.63%。科技股涨跌不一,网易收跌超6%,快手涨超4%,阿里...
日期:08-20
美版苹果iPhone,15 Pro Max测速结果出炉 下行速度比前代快96.6%_美版ios15
来源:中关村在线iphone12pro max摄像头提升根据最新研究报告,苹果iPhone 15 Pro Max在美国的5G网络下以251.37Mbps的中位下行速度脱颖而出,超越了三星Galaxy S23 Ultra 58%。该...
日期:10-17
中国联通聚焦算法融合,打造“四位一体”算力精品网
通信世界网消息(CWW)随着数字经济时代全面开启,算力正以一种新的生产力形式,为千行百业的数字化转型注入新动能,成为经济社会高质量发展的驱动力。《2022-2023全球计算力指数评估...
日期:11-14
“技术为王” QQVoice为国产软件发力_qq技术网
  “技术为王,创新为本”这一理念为中国民营企业,特别是互联网企业指明了方向。就以国内的新兴产业网络电话为例,近年来,随着因特网和voip语音通信技术的飞速发展,在短短几年...
日期:07-24
国庆假期租车自驾火了:预订量暴增近250% 热门车型一车难求_国庆假期租车价格
今天是国庆假期第二天,你出去旅游了没?在本地游、周边游、短途游的带动下,国庆假期租车自驾成为许多人的选择,热门车型更是一车难求。据@央视财经 报道,在上海探访上海一家租车门...
日期:10-04
Pro Max最受欢迎!郭明錤:iPhone 14 Pro系列下半年出货量将达65%「iphone13promax出货量」
9月21日消息,日前,天风国际分析师郭明錤发布苹果、iPhone 14与供应链的近期趋势预测。苹果13屏幕摔地面测试郭明錤表示,在产线转换后,iPhone 14 Pro系列出货占整体iPhone 14出货...
日期:09-23
被雪藏3年后 美国SpaceX猎鹰重型火箭重出江湖:史上第四次发射
马斯克SpaceX的猎鹰火箭可谓明星产品,不过相较于战功赫赫、屡屡出镜的猎鹰9,猎鹰重型火箭就低调许多,它迄今为止只发射了3次。iphone14plus使用感受被雪藏”3年之后,猎鹰重型火...
日期:10-18
时空壶翻译耳机官网「时空壶 T1 翻译机解决海外游关键障碍,异国他乡,也能畅聊!」
在当今全球化的时代,越来越多的人选择走出国门,探索世界的美景。无论是充满自由与冒险的海外自由行,还是省心便捷的跟团游,语言交流往往是海外旅途中的一大挑战。时空壶 T1翻译...
日期:06-28
增益BUFF加持,三星OLED电视打造沉浸式游戏体验_三星micro led电视
2023年,国内游戏市场回暖。全年游戏市场收入同比增长13.95%,首 次突破3000亿关口;用户规模提升到6.68亿人,也为历史新高点。在这些游戏玩家之中,不乏众多热爱主机游戏的用户,忠于...
日期:05-08
京东方手机屏生产基地「全球!京东方新手机屏幕工厂投产:产能近2亿片」
据青岛西海岸发布微信公众号消息,11月25日,京东方物联网移动显示端口器件生产基地项目点亮暨量产仪式在青岛西海岸新区举行,代表全球最大的移动显示模组单体工厂正式开始量产。...
日期:12-02