您的位置:首页 > 互联网

首个无师自通、泛化使用各种家具家电的具身三维图文大模型系统

发布时间:2024-01-10 18:24:44  来源:互联网     背景:

机器之心专栏

机器之心编辑部

这几天,家务活都被机器人抢着干了。

前脚来自斯坦福的会用锅的机器人刚刚登场,后脚又来了个会用咖啡机的机器人 Figure-01 。

只需给它观看示范视频,加上10个小时的训练,Figure-01 就能学会使用咖啡机,放咖啡胶囊到按下启动键,一气呵成。

但是想要让机器人无师自通,第一次见到各式各样的家具家电,就能在没有示范视频的情况下熟练使用。这是个难以解决的问题,不仅需要机器人拥有强大的视觉感知、决策规划能力,更需要精确的操纵技能。

现在,一个三维具身图文大模型系统为以上难题提供了新思路。该系统将基于三维视觉的精准几何感知模型与擅长规划的二维图文大模型结合了起来,无需样本数据,即可解决与家具家电有关的复杂长程任务。

这项研究由斯坦福大学的 Leonidas Guibas 教授、北京大学的王鹤教授团队,与智源人工智能研究院合作完成。

论文链接:https://arxiv.org/abs/2312.01307

项目主页:https://geometry.stanford.edu/projects/sage/

代码:https://github.com/geng-haoran/SAGE

研究问题概述

图 1:根据人类指令,机械臂能够无师自通地使用各种家用电器。

近日,PaLM-E 和 GPT-4V 带动了图文大模型在机器人任务规划中的应用,视觉语言引导下的泛化机器人操控成为了热门研究领域。

以往的常见方法是建立一个两层的系统,上层的图文大模型做规划和技能调度,下层的操控技能策略模型负责物理地执行动作。但当机器人在家务活中面对各种各样从未见过并且需要多步操作的家用电器时,现有方法中的上下两层都将束手无策。

以目前最先进的图文大模型 GPT-4V 为例,虽然它可以对单张图片进行文字描述,但涉及可操作零部件检测、计数、定位及状态估计时,它仍然错误百出。图二中的红色高亮部分是 GPT-4V 在描述抽屉柜、烤箱和立柜的图片时出现的各种错误。基于错误的描述,机器人再进行技能调度,显然不太可靠。

图 2:GPT-4V 不能很好处理计数,检测,定位,状态估计等泛化操控所关注的任务。

下层的操控技能策略模型负责在各种各样的实际情况中执行上层图文大模型给出的任务。现有的研究成果大部分是基于规则生硬地对一些已知物体的抓取点位和操作方式进行了编码,无法泛应对没见过的新物体类别。而基于端到端的操作模型(如 RT-1,RT-2 等)只使用了 RGB 模态,缺乏对距离的准确感知,对新环境中如高度等变化的泛化性较差。

受王鹤教授团队之前的 CVPR Highlight 工作 GAPartNet [1] 启迪,研究团队将重点放在了各种类别的家用电器中的通用零部件(GAPart)之上。虽然家用电器千变万化,但总有几样零件不可或缺,每个家电和这些通用的零件之间存在相似的几何和交互模式。

由此,研究团队在 GAPartNet [1] 这篇论文中引入了 GAPart 这一概念。GAPart 指可泛化可交互的零部件。GAPart 出现在不同类别的铰接物体上,例如,在保险箱,衣柜,冰箱中都能找到铰接门这种零件。如图 3,GAPartNet [1] 在各类物体上标注了 GAPart 的语义和位姿。

图3:GAPart:可泛化可交互的零部件[1]。

在之前研究的基础上,研究团队创造性地将基于三维视觉的 GAPart 引入了机器人的物体操控系统 SAGE 。SAGE 将通过可泛化的三维零件检测 (part detection),精确的位姿估计 (pose estimation) 为 VLM 和 LLM 提供信息。新方法在决策层解决了二维图文模型精细计算和推理能力不足的问题;在执行层,新方法通过基于 GAPart 位姿的鲁棒物理操作 API 实现了对各个零件的泛化性操作。

SAGE 构成了首个三维具身图文大模型系统,为机器人从感知、物理交互再到反馈的全链路提供了新思路,为机器人能够智能、通用地操控家具家电等复杂物体探寻了一条可行的道路。

系统介绍

图 4 展示了 SAGE 的基本流程。首先,一个能够解读上下文的指令解释模块将解析输入机器人的指令和其观察结果,将这些解析转化为下一步机器人动作程序以及与其相关的语义部分。接下来,SAGE 将语义部分(如容器 container)与需要进行操作部分(如滑动按钮 slider button)对应起来,并生成动作(如按钮的 按压 press 动作)来完成任务。

oppo低配高价是真的?

图 4:方法概览。

为了方便大家理解整个系统流程,一起来看看在无需样本的情况下,让机械臂使用操作一款没见过的微波炉的例子。

指令解析:从视觉和指令输入到可执行的技能指令

输入指令和 RGBD 图像观测后,解释器首先使用 VLM 和 GAPartNet [1] 生成了场景描述。随后,LLM(GPT-4)将指令和场景描述作为输入,生成语义零件和动作程序。或者也可以在这个环节输入一个特定的用户手册。LLM 将基于输入生成一个可操作零件的目标。

图 5:场景描述的生成(以 zero-shot 使用微波炉为例)。

为了更好地协助动作生成,场景描述包含物体信息、零件信息以及一些与互动相关的信息。在生成场景描述之前,SAGE 还将采用专家级 GAPart 模型 [1] 为 VLM 生成专家描述作为提示。这种兼收了两种模型的优点的方法效果良好。

图 6:指令理解和运动规划(以 zero-shot 使用微波炉为例)。

零件交互信息的理解与感知

图 7:零件理解。

在输入观察结果的过程中,SAGE 综合了来自 GroundedSAM 的二维(2D)提示和来自 GAPartNet 的三维(3D)提示,然后这些提示被用作可操作零件的具体定位。研究团队利用 ScoreNet、非极大值抑制(NMS)和 PoseNet 等展示了新方法的感知结果。

其中:(1)对于零件感知评估基准,文章直接采用了 SAM [2]。然而,在操作流程中,文章使用了 GroundedSAM,它也考虑到了作为输入的语义零件。(二)如果大型语言模型(LLM)直接输出了一个可操作零件的目标,那么定位过程将被绕过。

图 8:零件理解(以 zero-shot 使用微波炉为例)。

动作生成

一旦将语义零件定位到可操作零件之上,SAGE 将在这个零件上生成可执行的操作动作。首先,SAGE 将估计零件的姿态,根据铰接类型(平移或旋转)计算铰接状态(零件轴线和位置)和可能的运动方向。然后,它再根据以上估算生成机器人操作零件的动作。

在启动微波炉这个任务中,SAGE 首先预测机械臂应该以一个初始夹爪姿态作为主要动作。再根据 GAPartNet [1] 中定义的预定策略产生动作。这个策略是根据零件姿态和铰接状态确定的。例如,为了打开一个带有旋转铰接的门,起始位置可以在门的边缘或把手上,其轨迹是沿着门铰链定向的圆弧。

交互反馈

到目前为止,研究团队只使用了一个初始观测来生成开环交互。这时,他们引入了一种机制,可以进一步利用在互动过程中获得的观测结果,更新感知结果并相应调整操作。为了实现这一目标,研究团队为互动过程中引入了一个两部分的反馈机制。

应当注意,在首次观测的感知过程中可能出现遮挡和估算错误。

图 9:直接开门不能打开,该轮交互失败(以 zero-shot 使用微波炉为例)。

为了解决这些问题,研究者们进而提出了一个模型,利用交互式观测 (Interactive Perception) 来增强操作。在整个互动过程中,目标夹持器和零件状态的跟踪得以保持。如果出现显著的偏差,规划器可以自行选择以下四种状态之一:继续、转移到下一步、停止并重新规划或 成功。

例如,如果设置夹持器沿着一个关节旋转 60 度,但门只打开了 15 度,大型语言模型(LLM)规划器会选择 停止并重新规划。这种互动跟踪模型确保 LLM 在互动过程中能够具体问题具体分析,在微波炉启动失败的挫折中也能重新站起来。

图 10:通过交互反馈和重新规划,机器人意识到按钮打开的方法并成功。

实验结果

研究团队首先搭建了一个大规模语言指导的铰接物体交互的测试基准。

图 11:SAPIEN 模拟实验。

iphone14或引入卫星通信功能

他们使用了 SAPIEN 环境 [4] 进行了模拟实验,并设计了 12 项语言引导的铰接物体操作任务。对于微波炉、储物家具和橱柜的每个类别,各设计了 3 个任务,包括在不同初始状态下的开启状态和关闭状态。其他任务为打开锅盖、按下遥控器的按钮和启动搅拌器。实验结果显示,在几乎所有任务中 SAGE 都表现卓越。

图 12:真机演示。

苹果零售店员工组织工会要求加薪吗

研究团队同时也进行了大规模真实世界实验,他们使用 UFACTORY xArm 6 和多种不同的铰接物体进行操作。上图的左上部分展示了一个启动搅拌器的案例。搅拌器的顶部被感知为一个用于装果汁的容器,但其实际功能需要按下一个按钮来开启。SAGE 的框架有效地连接了其语义和动作理解,并成功执行了任务。

上图右上部分展示了机器人,需要按下(下压)紧急停止按钮来停止操作,旋转(向上)来重启。借助用户手册的辅助输入,在 SAGE 指导下的机械臂完成了这两个任务。上图底部的图片展示了开启微波炉任务中的更多细节。

图 13:更多真机演示和指令解读示例。

总结

SAGE是首个能够生成通用的家具家电等复杂铰接物体操控指令的三维视觉语言模型框架。它通过在零件级别上连接物体语义和可操作性理解,将语言指令的动作转化为可执行的操控。

此外,文章还研究了将通用的大型视觉 / 语言模型与领域专家模型相结合的方法,以增强网络预测的全面性和正确性,更好地处理这些任务并实现最先进的性能。实验结果表明,该框架具有强大的泛化能力,可以在不同物体类别和任务上展示出优越的性能。此外,文章还为语言指导的铰接物体操作提供了一个新的基准测试。

团队介绍

SAGE 这一研究成果来自斯坦福大学 Leonidas Guibas 教授实验室、北京大学王鹤教授具身感知和交互(EPIC Lab)以及智源人工智能研究院。论文的作者为北京大学学生、斯坦福大学访问学者耿浩然(共同一作)、北京大学博士生魏松林(共同一作)、斯坦福大学博士生邓丛悦,沈博魁,指导老师为 Leonidas Guibas 教授和王鹤教授。

参考文献:

[1] Haoran Geng,Helin Xu,Chengyang Zhao,Chao Xu,Li Yi,Siyuan Huang,and He Wang。Gapartnet: Cross-category domaingeneralizable object perception and manipulation via generalizable and actionable parts。arXiv preprint arXiv:2211.05272,2022.

[2] Kirillov,Alexander,Eric Mintun,Nikhila Ravi,Hanzi Mao,Chloe Rolland,Laura Gustafson,Tete Xiao et al。"Segment anything." arXiv preprint arXiv:2304.02643 (2023).

[3] Zhang,Hao,Feng Li,Shilong Liu,Lei Zhang,Hang Su,Jun Zhu,Lionel M。Ni,and Heung-Yeung Shum。"Dino: Detr with improved denoising anchor boxes for end-to-end object detection." arXiv preprint arXiv:2203.03605 (2022).

[4] Xiang,Fanbo,Yuzhe Qin,Kaichun Mo,Yikuan Xia,Hao Zhu,Fangchen Liu,Minghua Liu et al。"Sapien: A simulated part-based interactive environment." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,pp。11097-11107。2020.


返回网站首页

本文评论
达摩院的AI研究,让人类首次实现了大规模胰腺癌早筛
声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:泽南、杜伟,授权转载发布。用人工智能挑战最致命的癌症。日常生活中,我们经常会与人工智能进行互动,从解锁手机,使...
日期:11-30
售价18-25万元 比亚迪驱逐舰07正式更名海豹DM-i
【】7月14日消息,比亚迪在上海车展曾对外展出了驱逐舰07的实车,今日比亚迪官方宣布该车正式更名为海豹DM-i,并将于第三季度上市,售价区间为18-25万元。外观方面,海豹DM-i整体采用...
日期:09-21
手机评测网_手机评测网站排行榜北京
是一家致力于提供最新手机评测、新机发布及行业动态的专业网站。该网站集合了国内外各大手机品牌的最新产品,并通过实际使用和测试,为用户提供了不同角度、不同需求的手机评测...
日期:05-29
思科发布首个AI就绪指数:加拿大仅有9%企业做好准备_思科ise介绍
### 划重点:iqoo7是120w快充吗汉王蓝天霾表n2除螨虫喷雾剂哪个牌子好1....
日期:11-15
2020年11月南宁动物园门票多少钱「五一假期南宁动物园人山人海挤得无法动弹:官方建议改天再来」
五一”假期第二天,你以为的景区是人人人人人人”但其实是众众众众众众”,从游客在网上晒的各大景点排队图来看,真的是人挤人”模式。经常刷短视频的同学应该都刷到过南宁市动物...
日期:05-01
海信激光电视l588寸怎么样「家庭观影 一步到位!双十一入手海信激光电视L8K的三大理由」
又是一年双十一开门红。每年这个时候,计划选购电视的用户都开始犯难。到底要选什么样的电视?哪款电视才是当前技术先进,综合体验效果好呢?买电视除了要考虑更大的尺寸,还需要考虑...
日期:10-31
韩国iPhone用户败诉,声称苹果故意减慢手机速度以延长电池寿命「iPhone电池骤降」
wccftech报道,苹果在 2017 年因故意放慢iPhone的速度以增加电池寿命,但该公司的决定继续困扰着它,因为它被打了一个又一个的诉讼。不幸的是,对于消费者来说,并非所有的法庭诉讼最...
日期:02-03
百度文课「百度chat怎么用?百度chat文心一言官网首页入口」
文心一言是百度基于文心大模型技术推出的生成式对话产品,能够根据用户输入的文字、图片、音频等多种形式的信息,进行智能回复和交互。它被外界誉为“中国版ChatGPT”,是一款能...
日期:10-30
抖音买的衣服下架了可以退吗「抖音下场卖衣服,悄悄上线,火速下架」
声明:本文来自于微信公众号电商在线(ID:xxxxx),文|王亚琪,编辑|斯问,授权转载发布。继抖音超市后,抖音的自营业务,多了一个新的品类:服饰。在抖音上搜索“飞云织上”,可以看到一个主...
日期:04-13
老板给你发招聘信息「员工回应公司发布招聘老板公告 真实情况竟是这样」
近日,四川成都康艺盛和物科技有限公司发布了一份招聘公告,表示公司老板跑路了,希望招聘一位新的老板,并且提供了5-8万元的高薪。但是,实际情况是公司70多名员工已经三月份停止工...
日期:04-17
金山毒霸反病毒技术获国家级专利奖(金山毒霸杀毒能力)
  近日,据金山网络内部消息,根据《中国专利奖评奖办法》,中国专利奖评审委员会已评选出第十二届中国专利奖。国内自主知识产权的杀毒软件金山毒霸的一项发明专利,正式通过申...
日期:07-26
调整起售价及新车主权益 蔚来全系车型降价3万元_网易科技_蔚来降价?
财联社6月12日电,蔚来汽车今日宣布全系车型起售价减3万元;新购车首任车主用车权益调整为整车6年或15万公里质保等;免费换电补能不再作为标准用车权益,新用户可灵活选择在家充电...
日期:06-12
渐冻症抗争者蔡磊:我不是药神 我想助力别人成为药神_蔡磊渐冻症治疗群
渐冻症抗争者蔡磊:我不是药神 我想助力别人成为药神 (来源:网易科技频道) 文|静静出品|网易科技《态度》栏目“等待是换不来希望的,希望照进现...
日期:12-28
小米14要用!高通骁龙8 Gen3曝光:配备1颗X4超大核
快科技5月30日消息,博主数码闲聊站透露,高通骁龙8 Gen3采用的是1 5 2架构设计。对比骁龙8 Gen2,前者多了一颗大核,少了一颗小核,并且超大核升级为Cortex X4。携程租车运营相较过...
日期:05-30
小米Civi 2用上骁龙7芯片:号称36个月不卡「小米civi性能」
小米Civi 2手机在今天正式发布,新机搭载了骁龙7芯片,这也是该芯片在市面中的首批机型,而且小米Civi 2手机还配备了前置双摄及后置5000万像素大底三摄,同时性能也很强大。这款处...
日期:09-28
当我奶奶都开始用小红书,我觉得搜索引擎们不妙了「小红书sov」
声明:本文来自于微信公众号 差评(ID:chaping321),作者:差评君,授权转载发布。打开浏览器,输入百度,从检索出来的结果里翻找答案。在遇到不懂的事时,这一系列动作已经成了差评君下意...
日期:03-07
供应链“泄露天机”:任天堂新主机明年推出「任天堂2021年会出新主机吗?」
快科技7月28日消息,近日,知名硬件厂商原相科技在财报中透露,一家日系游戏机厂商”将在明年初推出新机。同时,原相在财报中指出,这是原相重点客户之一一款阔别多年的新机,有望带动...
日期:07-29
AMD/NV注意 Intel表态:CPU、GPU、独显都要做第一「amd高主频CPU」
随着Intel推出Arc独显,他们正式进入了高性能GPU市场,这意味着AMD、Intel都会是手握高性能x86、高性能GPU的半导体公司,NVIDIA没有高性能x86,但GPU及ARM CPU上也不容小觑。微信朋...
日期:10-18
共迎数字经济新“基”遇,华为云与计算城市峰会2020 特别节目 520重磅来袭
  加快复工复产、复市复业,需要新动能、更需要新抓手。发展数字经济就是重要的抓手,全面开动"新基建"将创造源源不断的动能。数字经济遇上"新基建"会发生怎样的化学反应?5...
日期:12-27
「欧洲版 OpenAI」初创公司 Mistral 正在洽谈融资以参与人工智能竞争
5月6日消息:据消息人士透露,被视为欧洲版 OpenAI 的初创企业 Mistral 正在讨论募集一轮实质性的融资。tiktok是抖音嘛2022年oppo findx3pro值得购买吗这家法国创业公司是 Fac...
日期:05-07