您的位置:首页 > 互联网

斯坦福博士助力,一年打造7亿融资独角兽!银河通用机器人创具身智能赛道天使轮融资纪录

发布时间:2024-06-21 20:50:30  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】过去一年,美元在华投资大幅缩水,资本市场呈现寒冬态势。然而,在这样的背景下,这家中国公司成立仅一年却创纪录的拿下超7亿元的天使轮融资,得到产业界、学界、国家队资本及市场化机构等多方支持,成为具身智能赛道中的黑马。他们更是在前不久的智源大会上放出大招,让机器人连续两天与观众现场真机互动,震惊一众同行。这家独角兽会成为中国版的OpenAI+Figure吗?

成立短短一年,就获得超7亿人民币天使轮融资,估值达到数十亿人民币。

最近,北京银河通用机器人有限公司(Galbot)逐渐走进了人们的视野。

尽管已圈粉无数,但外界对这家低调的企业却知之甚少,其对外披露的信息更是寥寥无几,新智元特上门求证,挖掘出了很多关于Galbot的一手信息。

Galbot,即Galaxy Bot的缩写,其命名背后蕴含着深远的寓意——展望未来的星辰大海,将智能机器人送达遥远的星际,为人类探索无尽可能。

如果我们继续深入了解这家公司背后的投资机构,会发现其阵容堪称豪华!(排名不分先后)

  • 知名风险投资基金:经纬创投、蓝驰创投、源码资本、IDG资本、启明创投、光源资本;

  • 战略投资方:美团战投、讯飞基金、商汤国香基金;

  • 产业投资方:首钢基金、北汽产投、招银国际;

  • 科研机构基金:智源研究院基金、鹏城远景基金、北大燕缘基金、清华See Fund基金、智友科学家基金;

  • 以及其他重量级投资平台:中网投、北京人工智能产业基金、顺禧基金、京国瑞、海淀中关村基金。

在被称作资本寒冬的当下,这家公司为何受到如此多知名风险投资、产业、科研等多家重磅投资机构的一致看好?

最近,网络上爆火的银河通用第一代具身大模型机器人——盖博特(Galbot)的展示视频给了我们答案。

银河通用机器人,赞1万

视频中,在多模态大模型与泛化具身技能的加持下,盖博特进行了智能人机交互并自主完成了一系列泛化操作,描绘出家用机器人的美好未来。

盖博特采用了轮式、双臂、折叠升降的设计,极大的扩展了机器人的操作空间。

相比起无法弯腰、屈膝的足腿式机器人,盖博特将两条腿合并为一条并采用了折叠设计,加上360°全向移动的轮式底盘,让身高1.73米的盖博特,不仅能以蹲姿稳定操作地面上的物体,甚至还可以整个身体趴下去操作水平面以下的东西。

而且,升降结构配合七自由度手臂使其站立后能摸到高达2.4米的地方,轻松在2米以上的地方干活,它是世界上已知首款拥有比人类更大工作空间的人形机器人。

相比于盖博特优雅灵动、精巧实用的外观设计,更难得的是,它拥有极其聪明的感知决策大脑和精准控制身体进行泛化操作的小脑。

视频的一开始,盖博特先是自如应对了在开放厨房中主人取物和倒水的要求。

当主人希望它给自己倒杯饮料时,盖博特能通过多模态大模型的能力看懂现场情况,并自主向主人询问所需的饮料类型。在主人选择橙汁后,它双手配合将橙汁倒入了放在桌面的杯子中。

在玻璃杯被意外打碎后,面对主人清理碎片的要求,盖博特展现出惊人的泛化感知和操作技能,直接识别并抓取了透明且形状随机的玻璃碎片,并将其扔到了垃圾桶内。

这完全突破了必须对传统机器人预先设定物体材质、形状、光线条件的这一局限,展现出前所未有的泛化能力。

不仅仅是较硬材质的玻璃,更难的是毛衣这种柔软的物体,无论衣服的款式、袖长、领口形状等,盖博特都可以泛化地用衣架把它们晾起来。

毫不夸张地说,这种能力在世界范围内都属于首次展现。

不过,这丝滑的操作、让人惊掉下巴的泛化能力,会不会又是一个为了博人眼球的摆拍呢?

小编可以负责任地告诉大家 ,这绝不是摆拍,盖博特的真实能力就是有这么强!不信?让我们走进现场验一验!

首代具身大模型机器人,现场真机互动大放异彩

前几天,在有着AI春晚美誉的2024北京智源大会现场,盖博特刚一亮相,现场就瞬间被围得水泄不通。

商派软件有限公司

十平米的展位内摆放着货架和茶几,它一边取货一边互动炫技,获得了在场观众的阵阵惊呼。

展会现场我们看到地面并没有任何路径标识,货架上也没有二维码或定位标签,那么盖博特是如何实现在这样临时搭建的陌生环境里精准导航和定位识别的呢?

小编通过对工作人员的采访了解到,这得益于银河通用的开箱即用产品理念及背后的机器人自动部署技术——它基于3DGS的机器人自动三维场景语义重建,机器人扫描建图后,完成对整个场景内包括透明物体在内的所有物品的几何重建、语义分割和识别,让机器人像员工一样知道商品的大致位置、导航到附近后再进行泛化抓取。

那么它真的能准确识别并抓取货架上的商品吗?这不,这位观众就当场试了一把,下单了一盒饼干。

接到任务后,盖博特开始移动并调整自己的身体高度,经过一番对货架的认真观察,它发现了目标并伸出胳膊,准确地抓起观众下单的饼干。

随后,它转身移动到柜台前,优雅的把饼干放到了小哥面前的取货筐内。

在为期两天的展会现场,盖博特连续工作了18个小时,服务了800多位顾客,完成了1000多项任务,成功率超过97%。这样精彩的表现,也为它赢得了一阵又一阵的掌声。

在展台的另一边,盖博特更进一步展示了具身智能大模型的泛化能力:面对一堆随机摆放的物体,它能听懂人类指令,进行抓取和放置。

一位参展观众向盖博特下达命令:盖博特,帮我抓一个毛绒玩具。盖博特立即接受指令,在多个物品中将毛绒玩具精准的识别并抓了起来。

之后盖博特又接到了很多观众现场随手放置的个人物品,如口红、车钥匙、房卡等机器人从来没有见过的物品。

无论被抓取物体的材质、形状、放置位置等如何变化,它都顺利完成了任务,惹的现场观众时时发出惊叹声。

除了智源大会,盖博特还在央视CCTV-2《对话》节目,2024中国人形机器人开发者大会等多个公开场合完成了真机展示。

央视CCTV2《对话》节目:智能理解并执行语音任务

2024中国人形机器人开发者大会:观众提供随机物体抓取

纵观整个人形机器人赛道,敢如此大胆进行现场真机泛化操作演示并与观众开放互动的企业非常少见。银河通用此举,充分展现了作为具身智能机器人领域头部企业的底气。

大语言模型(LLM)爆火之后,许多人都在说:我们想要机器人帮我们扫地、洗碗、做家务,并不是帮我们作诗、画画、写小说!,而盖博特展示出的这种泛化干活能力,很可能要让我们的梦想成真了。

以上我们所看到的各种令人印象深刻的泛化技能展示,都源自于其背后强大的技术支撑,今天小编就带着大家一起来深度揭秘盖博特背后的神秘技术。

合成数据 + Sim2Real:银河通用机器人泛化能力之魂

想要训练出机器人泛化的操作技能,必须让它在各种场景、物体与动作上进行训练,这样的数据需求是巨大的。

参考特斯拉开发出的FSD自动驾驶系统,背后是在各种道路、一百万辆车、上亿小时的用户驾驶动作数据。然而对于机器人操作数据,目前并没有足够的机器人也没有人自愿驾驶机器人来采集数据。

这条艰难的真实数据采集路线,谷歌的RT系列与特斯拉已经帮我们探索过了:

  • 谷歌花费17个月采集了13万条数据,却只覆盖了一个房间。机器人一旦走出这个房间,性能就大大下降;

  • 特斯拉虽然组建了40人团队负责遥操作采集数据,但以电池取放为例,在完成遥操作采集数据后,机器人面对不同款式的电池依然会束手无策。

我们看到,由于真实数据的采集成本过高且容易受到场景、物体的限制,数据规模严重受限,自然不容易实现具身技能较高程度的泛化。

事实上,缺少数据已成为了具身智能实现从零到一突破的最大瓶颈。

面对这一世界级的难题,银河通用采用了一条独家的技术路径——使用天量的仿真合成数据进行训练,然后进行从虚拟到真实的迁移(Sim2Real)。

为此,团队开发了大量的相关合成数据集,包括百万级的场景数据以及十亿级的操作数据。

相比真实数据,合成数据的优点就在于,可以摆脱现实条件的限制,描绘任意场景和物体,赋予机器人更强的泛化能力,而且能利用计算机图形学技术(CG)进行大规模的数量级扩展。

仿真合成数据的量可以保证,那质又如何?相比使用真实数据训练的机器人,是否会造成性能损失?这个问题是必须回答的,否则Sim2Real就只是一个伪命题,会让数据降级为Sim2Sim。

面对这个问题,银河通用给了我们十足的信心:完全基于合成数据和Sim2Real、没有使用任何真实世界的数据,银河通用、北大和智源的联合研究团队就习得了多种多样的高成功率泛化技能。

泛化操作技能学习:从二指抓放到灵巧操作

面对Google和Tesla花了大量真实数据却没能充分泛化抓取和放置的这一现实,银河通用团队通过多年积累率先实现了对任意材质、几何形态和堆叠的物体进行成功率超过95%的抓取技术。

苏宁国美合作

面对泛化抓取透明物体等世界级难题,银河通用通过三代技术迭代采用合成数据成功得到了传感器无法准确测量的几何深度并基于此获得的点云预测抓取。

在二指抓取之上,银河通用布局人形机器人终局末端:灵巧手,提出了世界最大的灵巧手数据集DexGraspNet。

利用深度加速的可微分力闭合估计器,银河通用实现了高效、稳健地大规模合成稳定且多样化的灵巧抓取实例。数据集涵盖了超过133类的5355个物体,并为每个物体生成了200多种不同的抓取实例,总数达到132万。

在抓取之上,面对多种多样的操作,团队提出了GAPartNet。

这是一个以零件为中心的交互式数据集,包含盖子、手柄等9类8489个零件,分布在1166个物体实例上,且有丰富的语义、姿势注释,让机器人从零件出发学习物体的操作,这样学习到的启发式方法可以更好地推广到对陌生物体的操作。

值得一提的是,以上几篇数据集的论文都被ECCV、CVPR、ICRA等顶级会议接收,其中GAPartNet被选为CVPR2023的满分亮点论文,DexGraspNet入围ICRA2023杰出操作论文的候选名单。

这些世界范围内顶尖学术会议的认可进一步体现了银河通用成果的的前沿性和突破性。

面向终局技术:端到端动作大模型的解决方案

除了众多分立的技能,银河通用同时布局具身智能的终极技术,端到端多模态大模型直接输出动作。

具体而言,银河通用选择了从下半身的导航任务开始摸索端到端动作大模型。

最近被机器人顶级会议RSS2024接收的NaVid是全球首个基于视频的具身导航多模态大模型,训练数据涵盖了51万纯仿真合成的室内环境视频导航样本(包括动作规划和指令推理两部分)以及76.3万来自真实世界的视频数据(无导航任务和动作信息)。

不同于已有的机器人导航技术,NaVid最出色之处在于充分利用了多模态大模型的优势,并且能以类似人类的方式进行纯视觉导航。

其仅依靠单视角摄像头采集的RGB视频流,而不再需要像传统导航技术那样建图或使用三维点云、里程计、深度图等其它传感器信号,避免了这些信息在真机部署中引入的sim2real gap的影响。

实验表明,NaVid在模拟和真实环境中都实现了SOTA性能,无论是跨数据集,从室内到室外,还是从仿真数据过渡到真实环境,都展现了卓越的泛化能力,成为该领域首个用视频多模态大模型实现泛化导航的里程碑式研究成果。

不久的将来,银河通用将进一步推广具身多模态动作大模型到操作,构成全身导航-操作一体的机器人基础模型。

总结来说,银河通用在数据方面的创新与探索,真正实现了从模拟到真实(Sim2Real)的数据驱动路径,克服了具身智能从零到一的数据瓶颈,达成了既有模块化的一个个泛化技能又有端到端的大模型解决方案,引领了世界具身智能的发展。

成立一年,坐拥世界级AI团队

这家技术世界领先的初创公司,背后团队是什么样的呢?

实际上,尽管已获得了来自顶级机构的7亿元天使轮投资,并在具身智能机器人核心技术取得突破性,但这家公司依然保持着一如既往神秘低调的作风,外界知之甚少。

新智元首次深入探秘了这家备受瞩目的明星公司内部团队,而他们能够在一年的时间内实现机器人真机泛化展示,确实也毫不意外。

具身智能领军人物

说起具身智能不得不提国际具身智能的顶尖学者王鹤博士,他曾于2021年获得了斯坦福大学的博士学位,师从美国三院院士Leonidas J. Guibas。再之前,他还获得了清华大学学士学位。

现在,王鹤博士除了在北大担任前沿计算研究中心助理教授,创立并领导了北大具身感知与交互实验室(EPIC Lab)外,还是北京智源研究院具身智能研究中心主任。

提及个人成果,王鹤博士已在国际顶会和期刊上,发表50多篇文章,并荣获ICCV2023最佳候选论文,ICRA2023最佳操作论文,Eurographics2019最佳论文提名奖,以及世界人工智能大会青年优秀论文等。

银河通用的北京研发中心坐落在中国硅谷——中关村,周边不仅知名企业星罗棋布,还与北大清华等著名高校隔街相望。

得益于得天独厚的学术研究优势,银河通用与北大、智源研究院牵手,分别成立了具身智能联合实验室、研究中心。

作为北大和智源共同孵化的企业,王鹤博士兼任北大-银河通用具身智能联合实验室的主任,携北大和智源的双重技术积累为盖博特注入了源源不断的创新动力,推动其不断迈向新的高度。

智能机器人行业先驱

姚腾洲先生,拥有深厚的专业背景。他硕士毕业于北京航空航天大学机器人研究所,师从机器人行业泰斗、中关村智友研究院院长王田苗教授。

姚腾洲先生曾就职于ABB集团上海机器人研发中心,积累了多年工业和服务机器人的研发经验,并拥有销量千万级智能硬件产品的量产经验。在硬件产品的设计、制造和销售方面,具备丰富的行业积淀。

在凝聚了海内外一众顶尖研究人才,且具备丰富商业化实战经验的基础上,银河通用与北京大学、智源研究院展开通力合作,汇聚产、学、研三界力量,不仅成功攻克了具身智能技术的多项难题,还为基础科学研究提供了有力支持,进一步为培养未来机器人行业的精英人才奠定了坚实基础。

基于现有的成果,下一步,银河通用未来将会展开怎样的布局?

下一步,往哪走?

在王鹤看来,会干活才是人形机器人研发的最终技术目标。

macbook air 13.3寸2018款i5 8g 256g ssd

今年的GTC大会上,英伟达发布了人形机器人项目GR00T,也就是打造通用机器人(Generalist Robot)。

通用,本质上就是希望机器人能够做各种各样的事情。

而且通用有两层含义:一是任务通用,即机器人可以胜任各种任务,且理解人类指令。二是环境通用,也就是机器人不仅可在平地行走,还能在各种挑战的地形中穿梭和工作。

开篇的各种演示,让我们已经看到,未来的员工,也许不再会是个真人。

在类似工厂、车厂这样复杂的环境中,机器人可以独立完成多种任务,在提高生产效率的同时,还为人类提供了更好的协作环境。

机器人亦完全可以胜任24h无人值守的场景,完成打包商品的任务。

王鹤表示,我们希望,机器人可以在商超、车厂的货物配送,如『线边取料』这样最基础,但是又非常繁复繁杂的任务当中,切实帮助到人类,真正给社会带来新质生产力,赋予企业新的动能。

除零售场景深度布局外,银河通用还在工业、物流、高校等多个领域展开了深入的场景交流和落地验证,并与多个企业和机构达成了战略合作。未来,还将进一步探索社区养老、家庭服务等更多应用场景。

具身智能机器人将深入实际场景,成为人类的城市管家、生活助手,甚至是工作伙伴,这早已成为了行业的共识。

高盛最新研究报告一度调整了对2035年人形机器人的市场预期——规模预计380亿美元。

Elon Musk更是在最近的股东大会上宣布,人形机器人赛道将创造35万亿美元的市场空间。

如今,无论海内外,从软件平台到硬件开发,从创业公司到科技局巨头,都已入场角逐。

我们希望看到以银河通用为代表的中国企业在世界崭露头角。

相信这一天不会太远。


返回网站首页

本文评论
GbE速度和PCIe Gen 5.0功能 Achronix为智能网卡提供400_gbe和fe网卡
【】6月28日消息,高性能FPGA芯片和嵌入式FPGA硅知识产权(eFPGA IP)领域的领导性企业Achronix半导体公司日前宣布:Achronix网络基础架构代码(ANIC)现已包括400 GbE的连接速度。ANIC...
日期:09-22
小米note12多少钱「小米Redmi Note 12R首销,搭载骁龙4 Gen2芯片,价格1099元起」
今日,小米旗下新款Redmi Note 12R手机正式上市,起售价为1099元。小米13 pro快充一加9系列搭载colorosadobepremierepro剪辑教程Redmi Note 12R被称为"5G小金刚",搭载了高通最新...
日期:06-30
美国ITC裁定柯达未侵犯苹果数码相机专利(柯达为什么公开相机的专利)
(晁晖)北京时间5月13日消息,据国外媒体报道,美国国际贸易委员会(以下简称“ITC”)一名法官裁定,柯达没有侵犯苹果的数码相机专利。ITC全体法官将于9月19日决定支持还是推翻这一...
日期:07-27
AI进商超:智能视觉秤减轻操作员负担,果蔬称重不再排队
  在传统生鲜超市中,果蔬称重、收银结算场景需要操作员进行人工操作。从辨识果蔬、称重、打价签、结算,操作员每一步操作都要尽量压缩时间。尽管如此,顾客也经常需要在称重...
日期:07-10
2w粉UP主缔造2000w播放,细节改动引爆流量
声明:本文来自于微信公众号 飞瓜轻数(ID:feiguabili),作者:麻吉,授权转载发布。B站知名数码UP主@老师好我叫何同学(以下简称“何同学”。)时隔两个月再次更新,这支标题为《为了找到...
日期:05-24
小米手环6 拆卸_小米手环7 Pro拆解:手环的最终归宿是智能手表?
小米手环7 Pro的硬件方案说实话,对比7惊喜不够大基本上只是多了个导航功能产品定位不明确,不伦不类终究是被小米手环7 Pro背刺了吗请戳视频 即刻解锁出镜 | 与非网行业分析师...
日期:08-20
虎牙直播推出虚拟偶像 IP“双马尾”,首次以真人等身 3D 数字人形象亮相
  12 月 27 日消息,12 月 27 日消息,近日,在虎牙直播和《迷你世界》联合举办的“红粉对决周年歌会”现场,虎牙虚拟偶像“双马尾”首次以真人等身的 3D 数字人形象亮相,并与《...
日期:12-06
Upwork 公布 2023 年十大生成式 AI 相关技能和招聘情况
var cid = "1553528".toString(); var czPay = localStorage.getItem('czpay'); if(czPay != null){ if(czPay.indexOf(cid)!=-1){ var pids = czPay.spli...
日期:08-24
一图盘点百度大脑AI开放平台的2020年_百度AI的2020
      开放273项AI能力,汇聚265万开发者   平均每1.2天新增或升级一项能力   十大创新产品,AI技术国际领先   加速AI场景落地,领跑产业智能化   ……   这些成...
日期:07-16
soul上的抑郁症骗局_面对抑郁症 他们用Soul将生活的温暖传递
  前不久,因《长安十二时辰》大火的明星热依扎发布微博,自己患有重度抑郁症。因为死过很多回,才知道生的意义。   言论一出,全网哗然。我们离抑郁症的距离,究竟有多远?  ...
日期:03-15
美光已开始出样业界首款8层堆叠的24GB容量第二代HBM3内存_美光的内存条怎么样
【】7月28日消息,Micron Technology Inc.(美光科技股份有限公司)今日宣布,公司已开始出样业界首款 8 层堆叠的 24GB 容量第二代 HBM3 内存,其带宽超过 1.2TB/s,引脚速率超过 9.2Gb...
日期:09-19
南方航空宣布调整客票退改规则:免费退改范围扩大、因病退改规则放宽
快科技1月4日消息,中国南方航空今日发布关于调整南航客票退改规则的公告”,将于2024年1月10日起全面调整。官方表示,自北京时间2024年1月10日零时起销售的南航国内客票适用新版...
日期:01-04
ai制作头像「研究人员利用AI从文字生成3D头像 实现虚拟试衣和形状编辑」
9月15日 消息:近日,研究人员公布了两项利用人工智能从文字生成三维头像的新研究成果,实现了虚拟试衣和头像形状编辑等应用。这些成果来自德国马普所等机构的研究人员,发表在 ar...
日期:09-15
淘宝也可以用微信支付了?!客服:正在逐步开放_淘宝能使用微信支付方式
本文转自【潇湘晨报】;近日,有网友发帖称在淘宝的支付页面出现了“微信扫码支付”的选项。 潇湘晨报记者询问淘宝官方客服,工作人员表示,“微信扫码支付是淘宝推出且在逐步开放...
日期:10-17
苹果 iPhone 14 Pro 的 A16 芯片成本是 A15 的两倍以上_a1584是ipadpro16年
10月8日消息:据日经亚洲报道,苹果在iPhone14Pro和iPhone14Pro Max中使用的新A16仿生芯片的生产成本为110美元,使其成本是去年发布的iPhone13Pro型号中A15芯片的2.4倍以上。A16...
日期:10-08
中国信通院:“星火・链网”两大国际超级节点面向全球正式上线
通信世界网消息(CWW)近日,中国信通院宣布,“星火・链网”国际超级节点(澳门)、国际超级节点(马来西亚)正式上线。小米11 Ultra跑分iphone se2什么时候下架微博被盗号原理信通院表示,...
日期:06-06
京东C2M反向定制助力消费升级 游戏手机受到消费者青睐
  随着80后、90后成为消费大军的主力,消费模式与消费理念也随着消费结构的的改变而改变。据由国家统计局主管的中国市场信息调查业协会发布了《2019年第三季度B2C电商平台...
日期:10-24
码尚定制捐赠100万元物资驰援河南
  7月20日以来,河南遭遇极端强降雨,多地遭遇特大水灾。那一夜热搜的娱乐信息逐渐消失,满屏都是#郑州地铁#、#河南多地暴雨致灾#等相关消息。灾情牵动着全国人民的心,码尚定制...
日期:09-20
卖2.5万被吐槽暴利!苹果革命性设备MR头显成本清单曝光 定价良心?
快科技6月7日消息,苹果终于发布了头显Vision Pro,在他们看来这是一款革命性的设备,你将通过它进入空间计算时代。极米投影仪harman相比目前其他在售的产品来说,苹果的MR头显明显...
日期:06-07
俄罗斯禁止用苹果手机吗「俄罗斯真的出手了,禁止在公务中使用苹果iPhone手机」
苹果iphone手机目前而言,是全球性能最强的手机之一,而且也可以毫无夸张的说是流畅度最好的手机之一,这也导致苹果每年能靠一部手机“闯天下”,不仅每年都拿下手机领域一半以上的...
日期:08-04