您的位置:首页 > 互联网

GR-2登场!ByteDance Research提出机器人大模型,具备世界建模和强大泛化能力

发布时间:2024-10-10 14:15:23  来源:互联网     背景:

声明:本文来自于微信公众号机器之心,授权转载发布。

最近,ByteDance Research 的第二代机器人大模型 —— GR-2,终于放出了官宣视频和技术报告。GR-2以其卓越的泛化能力和多任务通用性,预示着机器人大模型技术将爆发出巨大潜力和无限可能。

GR-2官方项目页面:

https://gr2-manipulation.github.io

初识 GR-2:百炼出真金

和许多大模型一样,GR-2的训练包括预训练和微调两个过程。

如果把机器人和人做比较,预训练过程就好像是人类的 “婴儿期”。而 GR-2的婴儿期与其他机器人截然不同。

在预训练的过程中,GR-2在互联网的海洋中遨游。

它在3800万个互联网视频片段上进行生成式训练,也因此得名 GR-2(Generative Robot2.0)。这些视频来自学术公开数据集,涵盖了人类在不同场景下(家庭、户外、办公室等)的各种日常活动。

这个过程,就像是它在经历一个快速的 “生长痛”,迅速学会了人类日常生活中的各种动态和行为模式。

open youtube channel

该图展示了 GR-2预训练数据中的样本视频和动词分布。下图中的 y 轴是最热门单词的对数频率。

这种预训练方式使 GR-2具备了学习多种操作任务和在多种环境中泛化的潜能。庞大的知识储备,让 GR-2拥有了对世界的深刻理解,仿佛它已经环游世界无数次。

微调的艺术:视频生成能力拔高动作准确率

据悉,GR-2的开发团队采用了一种创新的微调方法。

在经历大规模预训练后,通过在机器人轨迹数据上进行微调,GR-2能够预测动作轨迹并生成视频。

GR-2的视频生成能力,让它在动作预测方面有着天然的优势。它能够通过输入一帧图片和一句语言指令,预测未来的视频,进而生成相应的动作轨迹。

如下图所示,只需要输入一句语言指令:“pick up the fork from the left of the white plate”,就可以让 GR-2生成动作和视频。可以看到,机械臂从白盘子旁边抓起了叉子。右图中预测的视频和真机的实际运行也相差无几。

以下是几个进一步展示 GR-2视频生成能力的示例,包括把物品放进烤箱、将物品置于咖啡壶嘴下方等任务。

这种能力,不仅提升了 GR-2动作预测的准确性,也为机器人的智能决策提供了新的方向。

Scaling Law:机器人 + 大模型的要诀

在人工智能领域,Scaling Law 是一个备受瞩目的概念。它描述了模型性能与其规模之间的关系。对于 GR-2这样的机器人模型来说,这一法则尤为关键。

随着模型规模的增加,GR-2的性能呈现出显著的提升。

(a)(b)(c) 分别展示了不同尺寸 GR-2在 Ego4d、RT-1、GR-2三个数据集的验证集上的视频生成损失。(d) 展示了不同尺寸 GR-2在真机实验中的成功率。

在7亿参数规模的验证中,团队看到了令人鼓舞的结果:更大的模型不仅能够处理更多复杂的任务,而且在泛化到未见过的任务和场景时也表现得更加出色。

这表明,通过扩大模型规模,我们可以解锁机器人更多的潜能,使其在多任务学习和适应新环境方面更加得心应手。

多任务学习与泛化:未知场景的挑战者

在多任务学习测试中,GR-2能够完成105项不同的桌面任务,平均成功率高达97.7%。

GR-2的强大之处不仅在于它能够处理已知任务,更在于其面对未知场景和物体时的泛化能力。无论是全新的环境、物体还是任务,GR-2都能够迅速适应并找到解决问题的方法。

我开、我放……我眼里有活儿

更让人惊艳的是,GR-2还能够与大语言模型相结合,完成复杂的长任务,并与人类进行互动。

比如,我们想要喝一杯咖啡。GR-2会先从托盘里拿起杯子,并将其放在咖啡壶嘴下方。接着,它会按下咖啡机上的按钮来煮一杯咖啡。最后,当咖啡煮好了,机器人会把杯子放回托盘上。整个过程无需人类干预。

又如,我们早餐想要吃点东西。根据场景中的物体,机器人决定为我们制作一份烤面包。机器人首先按下烤面包机上的开关来烤制面包。然后它拿起烤好的面包,并将其放入红色的碗中。

认真工作中,勿扰

ByteDance Research 还想强调,GR-2能够鲁棒地处理环境中的干扰,并通过适应变化的环境成功完成任务。

以果蔬分类任务为例:桌子上放置着水果和蔬菜,我们需要机器人帮忙将水果和蔬菜分装到不同的盘子里。机器人能够自主识别物体的类别,并自动将它们放入正确的盘子中。

当在机器人移动的过程中移动盘子,GR-2依然能回过神来,准确找回它要放的目标盘子。

穿越“果”群,仍能找到你

工业应用中的突破:端到端的丝滑物体拣选

在实际应用中,GR-2相比前一代的一个重大突破在于能够端到端地完成两个货箱之间的物体拣选。

这个任务要求机器人从一个货箱中逐个拿起物体,并将其放入旁边的货箱。看似简单,但在实际应用中,能够实现这个需求的多模态端到端模型却难得一见。

端到端拣选任务场景

如下图所示,GR-2可以实现货箱之间丝滑且连续的物体拣选。

真 · 无情的拣选机器人

无论是透明物体、反光物体、柔软物体还是其他具有挑战性的物体,GR-2均能准确抓取。这展现了其在工业领域和真实仓储场景的巨大潜力。

除了能够处理多达100余种不同的物体,例如螺丝刀、橡胶玩具、羽毛球,乃至一串葡萄和一根辣椒,GR-2在未曾见过的场景和物体上也有着出色的表现。

拣选任务中的122个测试物品,其中只有55个物体参与训练。

GR-2可以识别透明的、可变形的或反光的物体。

话分两头,尽管 GR-2在互联网视频上接受了大规模的预训练,但也存在一些进步空间。例如,真实世界动作数据的规模和多样性仍然有限。

GR-2的故事,是关于 AI 如何推动机器人发展的故事。它不仅仅是一个机器人大模型,更是一个能够学习和适应各种任务的智能体。我们有理由相信,GR-2在实际应用中拥有巨大潜力。

GR-2的旅程,才刚刚开始。


返回网站首页

本文评论
英特尔与埃森哲合作推出 34 个开源 AI 参考套件:更快、更低成本训练人工智能模型
7月25日消息:英特尔寻求通过一套扩展的开源参考套件来吸引更多开发人员和数据科学家构建人工智能应用程序,这些套件利用了芯片制造商不断增长的软件堆栈。这家总部位于加利福...
日期:07-25
余承东宣布华为ADS 2.0高阶智能驾驶最领先:全国有图无图都能开_华为自动驾驶 余承东
快科技11月9日消息,今晚华为举办智慧出行解决方案发布暨智界S7新品预售大会。会上余承东宣布,华为智慧出行致力于引领智能汽车最强技术创新。欧拉好猫2021上海车展华为ADS 2.0...
日期:11-09
瓶装饮用水价格战打响:各大品牌纷纷推出促销活动_2020瓶装水市场
瓶装饮用水市场竞争激烈,各大品牌如农夫山泉、怡宝、娃哈哈等纷纷推出促销活动,降低价格。在夏季炎热的天气下,瓶装饮用水促销活动频繁,各品牌不断降价来吸引消费者。opporealx7...
日期:07-15
“花开心聚” 花小猪举办首次开放平台共创会「花小猪开放城市」
4月24日,“花开心聚”2023花小猪开放平台共创会在沈阳举办,来自全国网约车行业内的一百多家合作伙伴参会,包括百度地图打车 、曹操出行、麦田商旅、蜂派出行等。maxhub会议系统...
日期:04-24
贤哥表情包「抗癌网红贤哥因舌癌离世:年仅36岁」
9月27日消息,据媒体报道,湖南邵阳抗癌网红贤哥因舌癌离世,年仅36岁。快递揽收及时率mac book proair有触屏功能吗在短视频平台上,网红贤哥生前分享了多条短视频,劝大家远离槟榔。...
日期:09-27
微软PowerShell 7 即将带来 5 大亮点:.NET Core 3.0,Windows兼容性...
  上个月微软 PowerShell 7发布了第5个预览版,离最终正式版本又更进了一步。本文介绍一下PowerShell 7将带来的5大变化,主要是一些大方向上的特性。   .NET Core 3.0  ...
日期:07-20
能链智电:十一期间充电量同比增长95%,多景区充电量增长超100%
10月14日消息,根据能链智电及快电后台数据显示,十一期间,能链智电网络的充电量同比增长95%,充电订单量同比增长113%,快电App交易用户数量同比增长94%。十一期间,多个景区充电量增...
日期:10-15
Win11 任务栏基于 UWP(XAML)打造,但不少功能退化或缺失,微软回应
  7 月 6 日消息 此前,微软面向 Dev 开发频道发布了第一个 Windows 11 Insider Preview 版本,即 Build 22000.51! 微软表示,随着我们在未来几个月内完成产品的定型,我们将与...
日期:09-16
拳头性别歧视诉讼和解:赔付1亿美元、千名女性获赔(拳头被告歧视女性)
据GamesIndustry报道,拳头游戏性别歧视集体诉讼案又有了最新进展,加利福尼亚州的一名法官批准了拳头游戏的1亿美元的和解协议,这也意味着预计将有1000多名女性在工作室受到虐待...
日期:07-31
三星折叠屏z fold6发布时间方正外观设计抢眼 三星新旗舰要来了-Z Fold6真机曝光
来源:中关村在线iphone 11 pro发行价三星推出新款折叠屏手机Z Fold6谷歌手机pixel4xl怎么改制式  近日,有消息称三星即将推出新一代旗舰折叠屏手机Z Fold6。据悉,这款备受期...
日期:06-04
我国自主研制航空发动机主轴承新突破!疲劳寿命超5万小时_我国航空发动机轴承现状
11月3日,据央视新闻消息,近日,由北京航空材料研究院实施的航空发动机关键构件抗疲劳寿命试验突破5万小时,标志着我国高端装备制造技术取得全新突破。摩托罗拉千元机网红轻食加盟...
日期:11-12
谷歌用ai设计ai芯片「谷歌推出AI产品图生成工具——Product Studio」
日前,谷歌在Google Marketing Live活动中宣布将推出AI产品图生成工具Product Studio。该工具可以帮助商家使用生成AI轻松创建产品图像。谷歌表示,Product Studio使商家能够免...
日期:05-25
不好用不收钱,这家AI公司破天荒按结果收费,要卷死同行?
声明:本文来自微信公众号“机器之心”,编辑:陈陈,授权转载发布。一种新的人工智能商业模式。近两天,关于 OpenAI 提高付费版模型价格的消息满天飞,有消息称订阅价格最高可达每月2...
日期:09-09
5G消息首批合作伙伴「联发科技联合产业伙伴完成IMT-2020(5G)推进组URLLC和5GLAN技术验证」
11月6日消息,据5G推进组消息,近日,在IMT-2020(5G)推进组的指导下,联发科技联合爱立信、中兴通讯、诺基亚贝尔、中信科移动等多家产业伙伴,顺利完成了URLLC(Ultra-reliableLow-Late...
日期:11-13
那我们就走外国市场-李开复谈国内大模型价格战,如果大家宁可赔光通输也不让你赢
【】5月23日消息,在22日公布的最新LMSYS盲测竞技场最新排名中,零一万物Yi-Large取得总榜排名世界模型第7、中文分榜排名与GPT4o并列第一的成绩。零一万物CEO李开复表示,中国大...
日期:05-22
youtube视频流量_YouTube计划推出流媒体视频在线商店服务
8月15日消息,据报道,近日,Alphabet旗下YouTube正计划推出其流媒体视频在线商店服务。   知情人士称,YouTube已重新与娱乐公司就参与该平台进行谈判,这一平台在YouTube被称为“...
日期:08-16
小米淘宝官方旗舰店_小米淘宝官方旗舰店爱互动
是小米集团旗下官方线上销售渠道之一,在淘宝商城上开设的线上旗舰店。自2015年5月开始营运,截至目前已经服务了无数小米产品用户,成为小米产品用户购买的首选渠道之一。小米作...
日期:05-29
高合汽车进军直播带货 收入贴补汽车售后服务_高合汽车销售服务有限公司
快科技3月6日消息,近日,高合汽车停工停产,以及被法拉第未来起诉一事,引起网友关注热议。今日下午,高合汽车工程项目总监杨悦卿现身高合汽车官方直播间,回应了一系列热点话题。大疆...
日期:03-07
扎克伯格:到 2024 年 AI 将成为 Meta 最大的投资领域_扎克伯格mbit
10 月 27 日消息:Meta 公司在周四的股票收盘价下跌了超过 3%,这主要是在该公司发布了强劲的第三季度财报后的次日,由于持续的以色列-哈马斯战争可能导致广告业务放缓,公司对此...
日期:10-27
网易云音乐,又一次猜错了年轻人「网易云音乐回应“崩了”:全力以赴进行修复工作」
今天下午,"网易云音乐崩溃"的话题迅速登上了微博热搜榜。众多网友纷纷报告,在使用网易云音乐时,网页端遭遇了"502Bad Gateway"的服务器故障,同时,网易云音乐的移动应用也出现了无...
日期:08-19