您的位置:首页 > 互联网

具身智能发展概述_智能具有哪些特点

发布时间:2024-09-12 18:16:00  来源:互联网     背景:

通信世界网消息(CWW)具身智能可以连接网络空间和物理世界,将认知功能与物理实体相结合,是实现通用人工智能的关键。具身智能正以其创新性和实用性,经历从学术界向产业界的转移,更具泛化性、交互性和场景通用性的具身智能体也将进一步拓展机器人的应用边界,打破市场瓶颈。本报告从具身智能的概念内涵切入,回顾了具身智能发展历程,并对发展现状进行了梳理,在此基础上提出了面临的问题挑战及未来趋势。

具身智能的含义

根据计算机学会计算机术语评定委员会的定义,具身智能是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。

由上定义,具身智能应包括如下基本特征:

具身智能应超越预设逻辑的局限。具身智能需要能够动态适应各种复杂多变的环境,而不是简单地执行预设的、固定的指令或程序。具身智能应具备自主性,面对新场景,可在没有预设逻辑的条件下,通过实时感知和处理,自主决定最优行为策略。

具身智能须具备进化学习机制。进化学习机制可以帮助具身智能从历史经验中汲取知识,持续优化性能并提升泛化能力。具身智能应具备自适应性,能够持续学习和自我调整,有效应对新任务、变化和挑战,在长期运行中实现效率和智能水平的不断提升。

具身智能的物理行为和认知结构受到环境的塑造和影响。环境不仅仅是具身智能活动的背景,更是塑造其行为和认知模式的关键因素。具身智能应能展现出环境适应性,使其能够根据环境变化灵活调整其行为和认知策略,以在复杂物理世界中实现高效操作和精准决策。

具身智能的发展历史

智能发展的个体差异

具身智能发展的早期基础

Rodney Brooks于1991年发表的研究论文“Intelligence without representation” 中探讨了智能产生的本源:智能行为可以直接从自主机器与其环境的简单物理交互中产生,而无需复杂的算法或内部表征,这一理念对后续的机器人研究产生了深远影响。

随后,1999年,Rolf Pfeifer和Christian Scheier合著的“Understanding Intelligence”一书,提出智能并不局限于大脑或某些算法,而是强调身体对智能形成的根本影响,这一理论后来被称为“身体化智能”(Embodied intelligence)或“身体化认知”(Embodied cognition)。

此后,从认知科学的角度出发,Linda Smith于2005年提出了“具身假说”(Embodiment Hypothesis),强调身体与环境的相互作用在认知过程中的核心作用。

上述工作,引导智能起源研究的关注点从大脑的内部机制逐渐转向身体与环境之间的动态互动。这种转变为人机交互设计、人工智能和机器人技术等领域带来了新的研究视角和实践方法。

具身智能发展的新动能

以深度学习、大模型为代表的人工智能技术为具身智能的发展注入强劲动能,推动具身智能向更高层次迈进。

2012年, AlexNet首次在ImageNet图像分类竞赛中被引入,深度卷积神经网络CNN由此引发广泛关注,这一技术创新不仅为图像识别领域带来了颠覆性的变革,也带动了语音识别、自然语言处理领域的长足发展,开启了感知智能发展的新纪元。图像识别、语音识别等特定领域的技术已非常成熟,在一定程度上赋予了机器理解感官输入的能力,为具身智能的发展提供了基础。

2020年,OpenAI发布GPT-3,模型参数量达到1750亿,其展示的涌现能力,成为认知智能领域的标志性突破。这一进展,不仅在复杂语言处理任务上展现出卓越能力,而且也被扩展到视觉、音频等领域,并进一步推动了多模态智能的发展。虽然在认知层面,AI仍存在一定的模型幻化问题,尚不能完全真正理解物理世界的规则,但不可否认AI已具备了一定的“理解”和“思考”的能力,为更复杂、更具交互性的AI应用奠定了基础。

2023年,英伟达创始人黄仁勋于ITF World提出具身智能是人工智能的下一个浪潮,AGI(Artificial General Intelligence)与机器人融合已成为当下行业焦点,多个因素共同推动具身智能快速发展:首先,大模型的普及和计算能力的显著提升,使得对复杂的物理世界建模和交互变得可行;其次,以SAM (Segment Anything Model)、数据生成、世界模型为代表的工具链技术正在快速进步,为具身智能的训练和优化提供了更高效、更精确的支持;最后,“具身”层面的Robotics(机器人学)也取得长足的技术进步,整机设计和运动控制技术不断成熟,机器人运动能力和综合性能不断提升,服务机器人、四足机器人已走向产业化应用,人形机器人也已开始从高校走向创业企业、从实验室向应用场景探索。

具身智能的发展现状

具身智能包括大脑、小脑和本体三个重要组成。大脑负责顶层决策规划;小脑负责运动控制;本体负责动作执行。三个部分发展进程不一,但均处于快速发展之中。

具身智能大脑:大模型成为最大发展推动力

大脑是整个系统的核心控制中心,模拟人类思维决策过程,主导上层的逻辑推理、决策、长时间的规划以用自然语言和其他的智能体、环境交流。

大语言模型(LLM)、视觉语言模型(VLM)等基础模型的最新进展,特别是ChatGPT、PaLM等模型在具身智能中的应用,有效增强了其感知和决策能力,推动大模型成为具身智能实现“感知-推理-预测-行动”能力的主流架构,业界已经有多款模型发布,并在各类复杂任务中取得了显著的进展,且这些模型仍在快速迭代与优化中。

图1 主要具身智能大模型发展时间线

SayCan:谷歌机器人大模型的开端。该模型将任务分解为两个部分,实现了从高级语言理解到物理行动的转换。首先是“Say”,在该过程中,LLM根据用户提供的高级文本指令,生成可能的行动序列。之后是“Can”,该过程对行动序列进行评估,并结合物理环境选择可执行的动作。该模型首次引入LLM用于理解任务,并选择合适的任务规划。但由于动作是预设的,因此只能完成特定任务,底层技能的通用性和泛化性较差。

RT-1、RT-2、RT-X:其中RT-1首先将Transformer应用到机器人领域,表现出较好的长时序任务执行能力;RT-2使用了视觉语言动作模型(VLA,Vision-Language-Action Models),实现由大模型直接输出动作;RT-X采用了大规模、多样化数据集进行训练,实现了可在不同机器人平台、任务和环境迁移的“通用”模型。

PaLM-E:该模型继承了PaLM在语言生成上的强大性能,并利用ViT提升了在视觉相关任务中的表现,具体实现上PaLM-E通过ViT提取视觉特征,并将其与语言特征融合,从而使模型具备处理多模态输入的能力。但由于该模型缺乏对低层次动作控制的建模能力,PaLM-E在执行具体动作时表现较弱,只能处理机器人的高级指令,而无法实现更细粒度的运动控制。

ACT:即Action Chunking with Transformers,该模型使用Transformers实现动作分块策略,并使用变分自编码器(CVAE)来捕获人类数据中的可变性,完成多视角图像、关节位置和风格变量的处理,从而生成连贯的动作序列,实现了精确且平滑的运动,显著提高了在模拟和现实世界中的细粒度操控任务上的性能。但由于该模型高度依赖数据的质量和多样性,在处理与训练环境差异较大的实际任务时,可能表现出适应性不足的问题。

VoxPoser:该模型利用LLM和VLM协同来将抽象的语言指令转化为具体的动作指令。首先,LLM根据用户指令完成代码编写,之后VLM将上述代码与实际的视觉感知相结合,并最终合成运动轨迹。该框架可以通过零样本的方法实现高效、灵活的机器人操控,但需要手动设计大量Prompts来引导LLM。

RoboFlamingo:该模型利用了视觉-语言大模型VLM,通过模仿学习对语言指令和视觉观察进行深入理解,并将其转化为精确的动作规划和决策,生成机器人控制信号;在实际任务中,只需要使用较少量的下游机器人操控数据就能达到高性能和通用性。

3D Diffuser Actor:该模型利用3D场景表示来整合深度信息,实现了视觉观测与语言指令在同一3D空间中的融合,在提升对复杂环境的深入理解的同时增强了操作的精确性。此外,引入扩散模型学习动作分布,提高了动作预测的准确性和鲁棒性。

从上述内容可以看出,顶级科技公司和科研机构持续有机器人大模型推出,且技术方案各不相同。目前机器人大模型的技术路线还远未开始收敛,随着后续语言类大模型、多模态大模型的持续发展,具身智能底层架构同样有变化的可能。

具身智能小脑:与本体构型紧密耦合,有待突破

小脑在整个系统中处于承上启下的位置,向上承接大脑给出的任务指令,向下控制本体整机的运动。具体而言,其从大脑接收决策指令,并负责将这些高层次的策略转化为具体的运动指令,确保本体能够准确、流畅地执行各种物理动作。

不同于具身智能大脑可与硬件解耦、实现通用化,由于小脑专职于具身智能本体的微观运动控制,与本体紧耦合,需与本体相适应与优化,才能实现高效、精准和稳定的运动控制。实现运动控制的典型方法包括如下几种:

模型控制:该方法依赖于精确的动力学模型来计算控制信号,与构型的物理特性紧密耦合。构型的复杂性直接影响算法的设计和实现,在复杂结构或多自由度系统中,模型控制可能会面临求解困难和计算负担的问题。

人机映射:该方法需要构型与人类动作之间的自然对应,构型的设计必须考虑人类的运动习惯和反馈机制,以确保映射的有效性和直观性。该方法将人类的动作意图转换为机器人操作指令,具有较高的直观性和灵活性。这种方法面临跨域适应性的挑战,特别在处理复杂或未见过的动作时可能会受到限制。

美国自动驾驶等级

强化学习:该方法通过构型与环境的交互来学习最优行为策略,能够适应高度不确定性和复杂性的环境,但可能需要大量的试错,构型的自由度、反馈特性以及物理不确定性都会影响算法的学习效率和策略的可迁移性。

具身智能的运动控制不仅有高度的复杂性,而且与构型紧密耦合,运控算法的优化与提升仍然面临一系列的技术挑战。当前业界已在积极探索大模型等深度学习算法在运动控制领域的应用,初步实现了端到端学习和基于模型的控制两种技术方案。未来随着大模型的发展,特别是融合感知、多模态和泛化能力的突破,有望显著推动运动控制技术的进步,实现更加精准、复杂和实时的运动调节,推动具身智能在更多行业的应用。

具身智能本体:发展悠久,人形成为当下发展热点

本体是具身智能系统的物理实体部分,主要负责动作的执行。它接收小脑的运动指令,通过执行机构(如传感器、动力部件、结构部件等)来实现具身智能体在物理世界中的实际运动。本体在整个具身智能系统中,起到将虚拟决策转化为物理行为的关键作用。

本体包含构型、主控系统等模块,决定了具身智能体的外在,同时也是具身智能体实现运动、感知等能力的基础,其核心设计包括框架与机械结构、控制器、驱动系统、关节数量、关节位置、通信协议等,目前,本体正在向更轻便、更灵活、更鲁棒的方向发展,涉及的技术创新包括材料及机构、高自由度机械臂、灵巧手以及高精度力觉、触觉传感器等。

本体常见的构型方案包括单/双臂、轮式/履带式、足式(双足、四足)等。在众多形态中,人形智能体因其在执行通用任务上的潜力而备受关注,有望成为打造具身智能的最佳载体[17]。当前,特斯拉、英伟达等巨头以及Figure AI、宇树科技等初创科技企业纷纷投入人形机器人的研发和市场布局,零部件供应链也趋向成熟,带来未来产量预期的显著增加,带动工艺的提升和单位成本的快速下降,加速其在多个领域的广泛应用和商业化进程。

挑战与展望

具身智能有望成为继PC、智能手机、新能源汽车之后的下一个典型智能终端,带来颠覆性的产业升级机会。当前具身智能相关技术已取得了长足的进步,但从实验室研究走向广泛应用仍然面临众多挑战,如感知能力不足、高质量训练数据缺乏、通用性较差、多体协同困难等问题。

展望未来,具身智能的发展有望在多个关键研究方向上迎来一系列技术突破。其中,具身世界重建技术的研究,有望实现低成本、高质量的世界模型重建方法,为具身智能体提供视觉真实、几何精准的环境感知能力;具身数据合成技术[1]的研究,可以实现多模态传感器数据生成,提升具身智能体的任务扩展及精细化操作能力;端到端大模型的发展,也有助于具身智能体实现感、决策、控制与执行的一体化和通用化;与此同时,具身多体协同技术的发展,有助于具身智能体在复杂任务中高效合作,推动更大规模和复杂场景的应用。


返回网站首页

本文评论
微软调整必应搜索 API 价格 新定价将于 5 月 1 日开始生效_微软必应搜索网址
2月20日消息:微软必应搜索 API 允许开发者建立与网络连接的应用程序和服务,在没有广告的情况下寻找网页、图像、新闻、视频等内容。它包括必应网页搜索 API、必应图片搜索 AP...
日期:03-01
对话可控核聚变科学家:从奥本海默到人造太阳,人类无限清洁能源梦还有多远?
出品 |科技作者 |周锦童编辑 |杨锦电影《奥本海默》的热映,再次引起人们对这位传奇科学家的关注,同时,也将我们带回到那个历史时刻,“见证”原子弹这一最具毁灭性武器的诞生过程...
日期:09-14
手机用电池也能解锁?只是没遇上更安全便捷的超声波指纹
最近第三方博主电池解锁手机的视频开始流传。于是新的一轮手机屏幕指纹方案原理大普及又进入我们视野。大方向2个,一个是光学指纹,一个是超声波指纹识别。光学分短焦和超薄屏...
日期:07-21
国美家电清洗加盟_电器也爱“洗澡” 国美管家家电清洗狂欢季总动员
  ​夏日将至,各种清凉家电的使用频率开始增加,功能先进、设计人性化的家电为我们带来便利的同时,却让我们发现了共同的新问题,很多电器在使用的过程中会积水垢、藏污纳...
日期:03-12
新能源汽车维修人员缺口「人才缺口超百万-新能源汽修引热议_车企大佬在线指南」
6月25日消息,当前我国新能源汽车行业发展如火如荼,但背后也越发凸显对人才的渴求,近日,“新能源汽车人才缺口103万”的话题引发业内关注。发酵苹果醋饮料的功效与作用中国汽车工...
日期:06-27
华为云与上海数据集团城市数据空间Trust For Data联创成果正式发布_华为云数据中心基础设施
通信世界网消息(CWW)2024年5月24日,第七届数字中国建设峰会期间,华为云与上海数据集团城市数据空间Trust For Data联创成果正式发布。郭明錤 苹果该成果打造了鲲鹏TEE+隐私计算...
日期:05-25
华彬红牛官司悬而未决又向电商“开战”?东鹏饮料又赢麻了_华彬集团 红牛
近日,华彬红牛集团方面宣布开展专项货流整治行动,对全国所有2B、2C及社区电商平台展开全面关停禁供行动。华彬红牛此举目的在于进一步规范全国货流及价格秩序,以维护自身及经销...
日期:05-12
小米13ultra最新消息「小米13 Ultra官宣定档4月18日、号称影像战略升级第二章」
4月12日消息,今天小米官方宣布将于4月18日发布小米13 Ultra旗舰新机,同时号称这是小米影像战略升级第二章。雷军还转发并评论道,“小米徕卡联手打造又一历史级作品,划时代的技术...
日期:04-12
三星Galaxy Z Fold6将推Ultra版:但仅限这一地区_三星galaxy z fold 3百度百科
据最新爆料,三星即将发布其新一代折叠屏旗舰手机Galaxy Z Fold6系列。该系列不仅在硬件配置上进行了大幅升级,而且也开始走轻薄路线。根据曝光的消息,Galaxy Z Fold6系列将推出...
日期:05-24
OpenAI预测今年收入可达34亿美元
通信世界网消息(CWW)近日,据知情人士对媒体透露,OpenAI首席执行官山姆·奥特曼在内部员工全体会议上表示,从过去半年的情况来看,公司今年的收入有望达到34亿美元。奥特曼称今年绝...
日期:06-15
钉钉直播课堂模式和在线课堂的区别_钉钉线上教学模式被中国教育台推荐给全国老师
  4月2日,中国教育电视台打造的《同上一堂课·给老师帮帮忙》节目播出了“后疫情时期线上教学实践探索”主题内容。本期内容推荐了使用钉钉进行线上教学的案例。   本期...
日期:04-16
雷军同款小米汽车工装爆火:二手平台已炒至699元/件_雷军宣布小米全资造车发布会
快科技3月25日消息,随着小米汽车即将上市,小米商城今日上架了雷军同款小米汽车工装,售价299元,限量800件,立刻被一抢而空。据二手平台显示,目前已有卖家开始出售该外套,截至发稿前,...
日期:03-25
孙宏斌150亿「孙宏斌,绝不成为下个许家印」
核心提示 许家印被抓,留给恒大的时间不多了,另一边融创的孙宏斌涉险过关。房企的高光时刻彼此相似,而不幸的时刻各有各的困顿。 作者 | 詹方歌编辑 | 邢昀2022年...
日期:10-08
山河三省霸榜全国高温榜!郑州12日最高温度达45.4℃_郑州最高气温超过40度以上高温天气
快科技6月13日消息,近日,我国华北平原地区遭遇极端高温天气,其中河北、河南、山东三省的气温更是连续霸榜全国高温排行榜。6月13日,高温依旧处于鼎盛状态,河南中北部部分地区最高...
日期:06-14
为用户提供看护+照明便捷解决方案,乐橙TD3B让居家生活更美好!_乐橙说明书
随着智能家居设备的普及,消费者对智能摄像头的要求也越来越高,尤其传统摄像头普遍存在布线成本高、破坏墙体、安全隐患突出等问题,影响用户使用体验。致力于为用户提供安全、便...
日期:10-09
快手双11预售启动,“快手商城”tab页面上线_快手小店双11有活动吗
10月18日消息,快手电商双11大促启动预售,“快手商城”tab页面在APP端同步上线。汽车芯片发展据介绍,本次快手双11大促主题为“大牌百亿补,尽在快手商城”,“大牌大补”为此次快手...
日期:10-18
甲骨文公司首富「AI前哨|AI致富!甲骨文创始人财富首次超越比尔·盖茨」
凤凰网科技讯 《AI前哨》北京时间6月13日消息,当地时间周一,美股对于人工智能(AI)的乐观情绪推动甲骨文公司的股价及其创始人拉里埃里森(Larry Ellison)的净资产双双创下历史新...
日期:06-13
贵州梵净山百科「贵州梵净山现22颗连线飞行物:马斯克的星链卫星」
快科技7月17日消息,近日多地观测到了天空中出现了不明飞行物,一颗一颗练成直线。据一位摄影师网友介绍,7月16日晚21时10分左右,自己在贵州梵净山拍摄星空的过程中,偶然拍到了夜空...
日期:07-17
IBM推出新的企业AI平台 Watsonx
5月10日 消息:IBM 推出了一个名为 watsonx 的新人工智能和数据平台,该平台旨在帮助企业通过可信数据、速度和治理来加速高级人工智能的使用。据悉,atsonx 包含三个主要组件,分...
日期:05-10
facebook上架产品「为促进活跃度,Facebook“上AI”帮用户制作Stories」
声明:本文来自于微信公众号 白鲸出海(ID:baijingapp),授权转载发布。乐视超级演唱会近日,科技博主 Matt Navarra 发布推文称,Facebook 新增了一个叫作“高级故事”(Advanced Storie...
日期:04-16