具身智能发展概述_智能具有哪些特点

通信世界网消息（CWW）具身智能可以连接网络空间和物理世界，将认知功能与物理实体相结合，是实现通用人工智能的关键。具身智能正以其创新性和实用性，经历从学术界向产业界的转移，更具泛化性、交互性和场景通用性的具身智能体也将进一步拓展机器人的应用边界，打破市场瓶颈。本报告从具身智能的概念内涵切入，回顾了具身智能发展历程，并对发展现状进行了梳理，在此基础上提出了面临的问题挑战及未来趋势。

具身智能的含义

根据计算机学会计算机术语评定委员会的定义，具身智能是指一种基于物理身体进行感知和行动的智能系统，其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动，从而产生智能行为和适应性。

由上定义，具身智能应包括如下基本特征：

具身智能应超越预设逻辑的局限。具身智能需要能够动态适应各种复杂多变的环境，而不是简单地执行预设的、固定的指令或程序。具身智能应具备自主性，面对新场景，可在没有预设逻辑的条件下，通过实时感知和处理，自主决定最优行为策略。

具身智能须具备进化学习机制。进化学习机制可以帮助具身智能从历史经验中汲取知识，持续优化性能并提升泛化能力。具身智能应具备自适应性，能够持续学习和自我调整，有效应对新任务、变化和挑战，在长期运行中实现效率和智能水平的不断提升。

具身智能的物理行为和认知结构受到环境的塑造和影响。环境不仅仅是具身智能活动的背景，更是塑造其行为和认知模式的关键因素。具身智能应能展现出环境适应性，使其能够根据环境变化灵活调整其行为和认知策略，以在复杂物理世界中实现高效操作和精准决策。

具身智能的发展历史

智能发展的个体差异

具身智能发展的早期基础

Rodney Brooks于1991年发表的研究论文“Intelligence without representation” 中探讨了智能产生的本源：智能行为可以直接从自主机器与其环境的简单物理交互中产生，而无需复杂的算法或内部表征，这一理念对后续的机器人研究产生了深远影响。

随后，1999年，Rolf Pfeifer和Christian Scheier合著的“Understanding Intelligence”一书，提出智能并不局限于大脑或某些算法，而是强调身体对智能形成的根本影响，这一理论后来被称为“身体化智能”（Embodied intelligence）或“身体化认知”（Embodied cognition）。

此后，从认知科学的角度出发，Linda Smith于2005年提出了“具身假说”（Embodiment Hypothesis），强调身体与环境的相互作用在认知过程中的核心作用。

上述工作，引导智能起源研究的关注点从大脑的内部机制逐渐转向身体与环境之间的动态互动。这种转变为人机交互设计、人工智能和机器人技术等领域带来了新的研究视角和实践方法。

具身智能发展的新动能

以深度学习、大模型为代表的人工智能技术为具身智能的发展注入强劲动能，推动具身智能向更高层次迈进。

2012年， AlexNet首次在ImageNet图像分类竞赛中被引入，深度卷积神经网络CNN由此引发广泛关注，这一技术创新不仅为图像识别领域带来了颠覆性的变革，也带动了语音识别、自然语言处理领域的长足发展，开启了感知智能发展的新纪元。图像识别、语音识别等特定领域的技术已非常成熟，在一定程度上赋予了机器理解感官输入的能力，为具身智能的发展提供了基础。

2020年，OpenAI发布GPT-3，模型参数量达到1750亿，其展示的涌现能力，成为认知智能领域的标志性突破。这一进展，不仅在复杂语言处理任务上展现出卓越能力，而且也被扩展到视觉、音频等领域，并进一步推动了多模态智能的发展。虽然在认知层面，AI仍存在一定的模型幻化问题，尚不能完全真正理解物理世界的规则，但不可否认AI已具备了一定的“理解”和“思考”的能力，为更复杂、更具交互性的AI应用奠定了基础。

2023年，英伟达创始人黄仁勋于ITF World提出具身智能是人工智能的下一个浪潮，AGI（Artificial General Intelligence）与机器人融合已成为当下行业焦点，多个因素共同推动具身智能快速发展：首先，大模型的普及和计算能力的显著提升，使得对复杂的物理世界建模和交互变得可行；其次，以SAM (Segment Anything Model)、数据生成、世界模型为代表的工具链技术正在快速进步，为具身智能的训练和优化提供了更高效、更精确的支持；最后，“具身”层面的Robotics（机器人学）也取得长足的技术进步，整机设计和运动控制技术不断成熟，机器人运动能力和综合性能不断提升，服务机器人、四足机器人已走向产业化应用，人形机器人也已开始从高校走向创业企业、从实验室向应用场景探索。

具身智能的发展现状

具身智能包括大脑、小脑和本体三个重要组成。大脑负责顶层决策规划；小脑负责运动控制；本体负责动作执行。三个部分发展进程不一，但均处于快速发展之中。

具身智能大脑：大模型成为最大发展推动力

大脑是整个系统的核心控制中心，模拟人类思维决策过程，主导上层的逻辑推理、决策、长时间的规划以用自然语言和其他的智能体、环境交流。

大语言模型（LLM）、视觉语言模型（VLM）等基础模型的最新进展，特别是ChatGPT、PaLM等模型在具身智能中的应用，有效增强了其感知和决策能力，推动大模型成为具身智能实现“感知-推理-预测-行动”能力的主流架构，业界已经有多款模型发布，并在各类复杂任务中取得了显著的进展，且这些模型仍在快速迭代与优化中。

图1 主要具身智能大模型发展时间线

SayCan：谷歌机器人大模型的开端。该模型将任务分解为两个部分，实现了从高级语言理解到物理行动的转换。首先是“Say”，在该过程中，LLM根据用户提供的高级文本指令，生成可能的行动序列。之后是“Can”，该过程对行动序列进行评估，并结合物理环境选择可执行的动作。该模型首次引入LLM用于理解任务，并选择合适的任务规划。但由于动作是预设的，因此只能完成特定任务，底层技能的通用性和泛化性较差。

RT-1、RT-2、RT-X：其中RT-1首先将Transformer应用到机器人领域，表现出较好的长时序任务执行能力；RT-2使用了视觉语言动作模型（VLA，Vision-Language-Action Models），实现由大模型直接输出动作；RT-X采用了大规模、多样化数据集进行训练，实现了可在不同机器人平台、任务和环境迁移的“通用”模型。

PaLM-E：该模型继承了PaLM在语言生成上的强大性能，并利用ViT提升了在视觉相关任务中的表现，具体实现上PaLM-E通过ViT提取视觉特征，并将其与语言特征融合，从而使模型具备处理多模态输入的能力。但由于该模型缺乏对低层次动作控制的建模能力，PaLM-E在执行具体动作时表现较弱，只能处理机器人的高级指令，而无法实现更细粒度的运动控制。

ACT：即Action Chunking with Transformers，该模型使用Transformers实现动作分块策略，并使用变分自编码器（CVAE）来捕获人类数据中的可变性，完成多视角图像、关节位置和风格变量的处理，从而生成连贯的动作序列，实现了精确且平滑的运动，显著提高了在模拟和现实世界中的细粒度操控任务上的性能。但由于该模型高度依赖数据的质量和多样性，在处理与训练环境差异较大的实际任务时，可能表现出适应性不足的问题。

VoxPoser：该模型利用LLM和VLM协同来将抽象的语言指令转化为具体的动作指令。首先，LLM根据用户指令完成代码编写，之后VLM将上述代码与实际的视觉感知相结合，并最终合成运动轨迹。该框架可以通过零样本的方法实现高效、灵活的机器人操控，但需要手动设计大量Prompts来引导LLM。

RoboFlamingo：该模型利用了视觉-语言大模型VLM，通过模仿学习对语言指令和视觉观察进行深入理解，并将其转化为精确的动作规划和决策，生成机器人控制信号；在实际任务中，只需要使用较少量的下游机器人操控数据就能达到高性能和通用性。

3D Diffuser Actor：该模型利用3D场景表示来整合深度信息，实现了视觉观测与语言指令在同一3D空间中的融合，在提升对复杂环境的深入理解的同时增强了操作的精确性。此外，引入扩散模型学习动作分布，提高了动作预测的准确性和鲁棒性。

从上述内容可以看出，顶级科技公司和科研机构持续有机器人大模型推出，且技术方案各不相同。目前机器人大模型的技术路线还远未开始收敛，随着后续语言类大模型、多模态大模型的持续发展，具身智能底层架构同样有变化的可能。

具身智能小脑：与本体构型紧密耦合，有待突破

小脑在整个系统中处于承上启下的位置，向上承接大脑给出的任务指令，向下控制本体整机的运动。具体而言，其从大脑接收决策指令，并负责将这些高层次的策略转化为具体的运动指令，确保本体能够准确、流畅地执行各种物理动作。

不同于具身智能大脑可与硬件解耦、实现通用化，由于小脑专职于具身智能本体的微观运动控制，与本体紧耦合，需与本体相适应与优化，才能实现高效、精准和稳定的运动控制。实现运动控制的典型方法包括如下几种：

模型控制：该方法依赖于精确的动力学模型来计算控制信号，与构型的物理特性紧密耦合。构型的复杂性直接影响算法的设计和实现，在复杂结构或多自由度系统中，模型控制可能会面临求解困难和计算负担的问题。

人机映射：该方法需要构型与人类动作之间的自然对应，构型的设计必须考虑人类的运动习惯和反馈机制，以确保映射的有效性和直观性。该方法将人类的动作意图转换为机器人操作指令，具有较高的直观性和灵活性。这种方法面临跨域适应性的挑战，特别在处理复杂或未见过的动作时可能会受到限制。

美国自动驾驶等级

强化学习：该方法通过构型与环境的交互来学习最优行为策略，能够适应高度不确定性和复杂性的环境，但可能需要大量的试错，构型的自由度、反馈特性以及物理不确定性都会影响算法的学习效率和策略的可迁移性。

具身智能的运动控制不仅有高度的复杂性，而且与构型紧密耦合，运控算法的优化与提升仍然面临一系列的技术挑战。当前业界已在积极探索大模型等深度学习算法在运动控制领域的应用，初步实现了端到端学习和基于模型的控制两种技术方案。未来随着大模型的发展，特别是融合感知、多模态和泛化能力的突破，有望显著推动运动控制技术的进步，实现更加精准、复杂和实时的运动调节，推动具身智能在更多行业的应用。

具身智能本体：发展悠久，人形成为当下发展热点

本体是具身智能系统的物理实体部分，主要负责动作的执行。它接收小脑的运动指令，通过执行机构（如传感器、动力部件、结构部件等）来实现具身智能体在物理世界中的实际运动。本体在整个具身智能系统中，起到将虚拟决策转化为物理行为的关键作用。

本体包含构型、主控系统等模块，决定了具身智能体的外在，同时也是具身智能体实现运动、感知等能力的基础，其核心设计包括框架与机械结构、控制器、驱动系统、关节数量、关节位置、通信协议等，目前，本体正在向更轻便、更灵活、更鲁棒的方向发展，涉及的技术创新包括材料及机构、高自由度机械臂、灵巧手以及高精度力觉、触觉传感器等。

本体常见的构型方案包括单/双臂、轮式/履带式、足式（双足、四足）等。在众多形态中，人形智能体因其在执行通用任务上的潜力而备受关注，有望成为打造具身智能的最佳载体[17]。当前，特斯拉、英伟达等巨头以及Figure AI、宇树科技等初创科技企业纷纷投入人形机器人的研发和市场布局，零部件供应链也趋向成熟，带来未来产量预期的显著增加，带动工艺的提升和单位成本的快速下降，加速其在多个领域的广泛应用和商业化进程。

挑战与展望

具身智能有望成为继PC、智能手机、新能源汽车之后的下一个典型智能终端，带来颠覆性的产业升级机会。当前具身智能相关技术已取得了长足的进步，但从实验室研究走向广泛应用仍然面临众多挑战，如感知能力不足、高质量训练数据缺乏、通用性较差、多体协同困难等问题。

展望未来，具身智能的发展有望在多个关键研究方向上迎来一系列技术突破。其中，具身世界重建技术的研究，有望实现低成本、高质量的世界模型重建方法，为具身智能体提供视觉真实、几何精准的环境感知能力；具身数据合成技术[1]的研究，可以实现多模态传感器数据生成，提升具身智能体的任务扩展及精细化操作能力；端到端大模型的发展，也有助于具身智能体实现感、决策、控制与执行的一体化和通用化；与此同时，具身多体协同技术的发展，有助于具身智能体在复杂任务中高效合作，推动更大规模和复杂场景的应用。