具身智能视觉-语言-动作（VLA）模型综述！

中國龍在廣州

1847人浏览 · 2025-07-13 11:30:00

中國龍在廣州 · 2025-07-13 11:30:00 发布

让机器人 “看懂、听懂、会动” 的秘密：具身智能视觉-语言-动作（VLA）模型综述！

原创旺知识旺知识 2025年07月05日 12:07 广东

旺精通：细节解读，深度精通

当你对着机器人说“帮我把桌上的杯子放到柜子里”，它能准确理解你的话、看清杯子位置并顺利完成动作吗？这背后，视觉-语言-动作模型（VLAs）是核心功臣。但这些模型是如何让机器人“眼观六路、耳听八方、身手敏捷”的？它们又面临着哪些难以突破的瓶颈？这篇综述将带你一探究竟。

我们解读最新技术，文末有相关信息。

作者：张长旺，图源：旺知识

我们都希望机器人能像人一样，看懂周围环境、听懂人类指令，还能做出正确动作。但让机器人做到这些并不容易，这就是具身人工智能要解决的问题。而视觉-语言-动作模型（VLAs）正是实现这一目标的关键，它结合了视觉、语言和动作三种能力。这篇文章第一次全面梳理了VLAs的发展，能帮助研究者更好地了解这个领域的现状、难点和未来方向，推动机器人更智能地服务生活，比如家庭里的日常任务、工厂里的复杂操作等。

摘要 & 解读

具身人工智能（Embodied AI）被广泛认为是人工通用智能的关键要素，因为它涉及控制具身智能体在物理世界中执行任务。在大型语言模型和视觉-语言模型取得成功的基础上，一类新的多模态模型——视觉-语言-动作模型（VLAs）应运而生。这类模型凭借其独特的动作生成能力，旨在解决具身人工智能中受语言条件约束的机器人任务。近年来，大量的视觉-语言-动作模型被开发出来，因此有必要通过全面的综述来梳理这一快速发展的领域。为此，我们首次对用于具身人工智能的视觉-语言-动作模型进行综述。本文提供了视觉-语言-动作模型的详细分类法，将其分为三大研究方向。第一个方向聚焦于视觉-语言-动作模型的各个组成部分；第二个方向致力于开发擅长预测低级别动作的控制策略；第三个方向包括高级别任务规划器，其能够将长时任务分解为一系列子任务，从而引导视觉-语言-动作模型遵循更通用的用户指令。此外，我们还广泛总结了相关资源，包括数据集、模拟器和基准测试。最后，我们讨论了视觉-语言-动作模型面临的挑战，并概述了具身人工智能中具有前景的未来方向。

• 研究背景: 深度学习早期以单模态模型为主，计算机视觉领域从卷积神经网络向视觉Transformer转变，自然语言处理领域从循环神经网络向Transformer演变，强化学习领域也有显著进展。随着多模态模型在视觉问答等任务中的成功，传统机器人策略在受控环境中解决有限任务的局限性凸显，对通用多任务策略的需求增长。同时，语言指令为人机交互提供了直观界面，推动了受语言条件约束的机器人策略的发展。在大型视觉-语言模型成功的基础上，视觉-语言-动作模型（VLAs）应运而生，旨在整合视觉、语言和动作模态，解决具身人工智能中的复杂任务。
• 实现设计:
- • 视觉-语言-动作模型的组成部分：整合了强化学习（如决策Transformer、人类反馈强化学习）、预训练视觉表征（如CLIP、DINOv2）、视频表征（如时间对比学习）、动力学学习（如前向和逆向动力学模型）、世界模型（如Dreamer系列）、大型语言模型诱导的世界模型（如DECKARD）、视觉世界模型（如Genie）及推理机制（如思维链方法）。
- • 低级别控制策略：包含非Transformer架构（如CLIPort）、基于Transformer的架构（如RT-1、Gato）、多模态指令适应（如VIMA）、3D视觉整合（如PerAct）、基于扩散的策略（如Diffusion Policy）、运动规划整合（如VoxPoser）、基于点的动作策略（如PIVOT）及大型VLAs（如RT-2）。
- • 高级别任务规划器：分为整体式（如SayCan、PaLM-E）和模块化（如Inner Monologue、ProgPrompt），整体式依赖单个大型模型生成任务计划，模块化通过组装现成模型实现，均旨在将复杂任务分解为子任务。

一、引言

视觉-语言-动作模型（VLAs）是具身人工智能领域中的一类多模态模型，旨在处理来自视觉、语言和动作模态的信息。与ChatGPT等对话式人工智能不同，具身人工智能需要控制与环境交互的物理实体，而机器人技术是具身人工智能最突出的领域。在受语言条件约束的机器人任务中，策略必须具备理解语言指令、视觉感知环境以及生成适当动作的能力，这就需要视觉-语言-动作模型的多模态能力。该术语最近由RT-2提出。与早期的深度强化学习方法相比，视觉-语言-动作模型在复杂环境中具有更强的通用性、灵活性和泛化能力。因此，它们不仅适用于工厂等受控环境，还适用于家庭环境中的日常任务。

深度学习的早期发展主要以单模态模型为主。在计算机视觉（CV）领域，AlexNet等模型展示了人工神经网络的潜力。循环神经网络为众多自然语言处理（NLP）模型奠定了基础，但近年来发生了转变，Transformer逐渐占据主导地位。深度Q网络（Deep Q-network）证明了人工神经网络能够成功解决强化学习问题。借助不同机器学习领域中单模态模型的进展，多模态模型现在能够处理广泛的任务，如视觉问答、图像 captioning 和文本到视频生成等。

基于强化学习的传统机器人策略主要集中在受控环境中解决有限的任务集，例如物品抓取。然而，人们对更通用的多任务策略的需求日益增长，这与大型语言模型（LLMs）和视觉-语言模型（VLMs）的最新趋势相似。开发多任务策略具有挑战性，因为它需要学习更广泛的技能并适应多样化的环境。此外，通过语言指令指定任务提供了更直观的人机交互界面，这需要开发受语言条件约束的机器人策略。

在大型视觉-语言模型成功的基础上，视觉-语言-动作模型已展示出应对这些挑战的潜力，如图1所示。与视觉-语言模型类似，视觉-语言-动作模型利用视觉基础模型作为视觉编码器，以获取当前环境状态的预训练视觉表征，如物体类别、姿态和几何形状。视觉-语言-动作模型使用其大型语言模型的令牌嵌入来编码指令，并采用各种策略来对齐视觉和语言嵌入，包括BLIP-2和LLaVA等方法。通过在机器人数据上进行微调，大型语言模型可以作为解码器来预测动作并执行受语言条件约束的机器人任务。这些跨学科创新推动了视觉-语言-动作模型在具身人工智能中的发展，而具身人工智能是人工通用智能（AGI）的关键组成部分。

如图2b中的时间线和图3中的分类法所示，视觉-语言-动作模型与三类工作密切相关。一些方法专注于视觉-语言-动作模型的各个组成部分（第III-A节），如预训练视觉表征、动力学学习、世界模型和推理。同时，大量研究致力于低级别控制策略（第III-B节）。在这类研究中，语言指令和视觉感知被输入到控制策略中，控制策略随后生成低级别动作（如平移和旋转），从而使视觉-语言-动作模型成为控制策略的理想选择。相比之下，另一类模型作为高级别任务规划器，负责任务分解（第IV节）。这些模型将长时任务分解为一系列子任务，进而引导视觉-语言-动作模型实现总体目标，如图4所示。当前大多数机器人系统采用这种分层框架，因为高级别任务规划器可以利用高容量模型，而低级别控制策略可以专注于速度和精度，这与分层强化学习类似。

为了更全面地概述具身人工智能的当前进展，我们通过图2a中的维恩图提出了“视觉-语言-动作模型”的广义定义。我们将视觉-语言-动作模型定义为任何能够处理来自视觉和语言的多模态输入，以产生完成具身任务的机器人动作的模型，通常遵循图1中的架构。视觉-语言-动作模型的原始概念指的是将视觉-语言模型适配到机器人任务的模型。类似于大型语言模型与更通用的语言模型之间的区别，我们将原始的视觉-语言-动作模型称为“大型视觉-语言-动作模型（LVLAs）”，因为它们基于大型语言模型或大型视觉-语言模型。

相关工作：据我们所知，本综述是首次回顾视觉-语言-动作模型这一快速新兴研究领域的最新进展。先前的综述研究了具身人工智能的其他方面。[12]全面总结了截至2023年的机器人基础模型，而[13]专注于机器人领域的大型语言模型。[14]研究了更近期的用于通用机器人的视觉、语言和机器人基础模型。[15]集中于现实世界的机器人应用。相比之下，我们的工作强调视觉-语言-动作模型，从而补充和扩展了现有的具身人工智能文献。

贡献：据我们所知，本文是第一篇全面综述具身人工智能领域新兴的视觉-语言-动作（VLA）模型的论文。

• 全面综述：我们对具身人工智能中新兴的视觉-语言-动作模型进行了全面回顾，涵盖了组件、架构、训练目标、机器人任务等各个方面。
• 分类法：我们基于当前机器人系统的分层框架引入了视觉-语言-动作模型的分类法，包括两个层次：低级别控制策略和高级别任务规划器。控制策略根据指定的语言命令和感知到的环境执行低级别动作。任务规划器通过将长时任务分解为子任务，为控制策略提供指导。我们还讨论了视觉-语言-动作模型的各种基本组件。
• 资源：我们总结了训练和评估视觉-语言-动作模型所需的必要资源，包括现实世界或模拟环境中的最新数据集和基准测试。我们还讨论了应对当前挑战（如数据稀缺和不一致）的各种方法。
• 未来方向：我们概述了该领域当前面临的挑战和有前景的未来机遇，如安全性、基础模型和现实世界部署。

二、背景

A. 单模态模型

视觉-语言-动作模型整合了三种模态，通常依赖于现有的单模态模型。计算机视觉领域从卷积神经网络（如ResNet）向视觉Transformer（如ViT、SAM）的转变，促进了视觉基础模型（VFMs）的发展。在自然语言处理中，从循环神经网络（如LSTM、GRU）到Transformer的演变，最初催生了预训练-微调范式（如BERT、ChatGPT），随后在大型语言模型的推动下，提示微调（prompt tuning）近期取得了成功。强化学习（如DQN、AlphaGo、PPO、Dactyl）也见证了向使用Transformer来将马尔可夫决策过程建模为自回归序列数据的转变（第III-A1节）。

B. 视觉-语言模型

视觉-语言任务包括图像 captioning、视觉问答、视觉 grounding 等，需要融合计算机视觉和自然语言处理模型。早期的努力，如Show and Tell，利用了早期卷积神经网络和循环神经网络的成功。高容量语言模型（包括BERT和GPT）的出现开启了基于Transformer的视觉-语言模型的新时代。ViLBERT是开创性的自监督预训练方法之一，而CLIP普及了用于多模态对齐的对比预训练方法。大型语言模型的近期出现推动了多模态大型语言模型（MLLMs）或大型多模态模型（LMMs）的发展，它们在多模态指令跟随任务上取得了最先进的性能。具有代表性的多模态大型语言模型包括Flamingo、BLIP-2和LLaVA。视觉-语言模型与视觉-语言-动作模型密切相关，因为视觉-语言模型的多模态架构可以很容易地被视觉-语言-动作模型采用。此外，如果视觉-语言模型具备足够的推理能力，它们还可以作为高级别任务规划器。

C. 具身人工智能与机器人学习

具身人工智能是一种独特的人工智能形式，它主动与物理环境交互。这使其有别于其他人工智能模型，例如主要处理文本对话的对话式人工智能（ChatGPT），或专注于文本到视频生成等任务的生成式人工智能模型（Sora）。具身人工智能涵盖广泛的实体，包括智能家电、智能眼镜、自动驾驶汽车等。其中，机器人是最突出的实体之一。

机器人学习通常也被构建为强化学习问题，表示为包含状态（s）、动作（a）和奖励（r）的马尔可夫决策过程（MDP）。马尔可夫决策过程轨迹表示为。在某些情况下，由于观测不完全，机器人任务也可能被视为部分可观测马尔可夫决策过程（POMDPs）。强化学习的主要目标是训练一种策略，能够为当前状态生成最优动作。可以采用各种方法（如时间差分学习、策略梯度等）来实现这一目标。然而，在难以定义奖励函数的情况下，模仿学习被用于直接建模无奖励轨迹中的动作分布。此外，许多多任务机器人模型使用语言作为指令p来确定执行哪个任务或技能，这导致了受语言条件约束的机器人策略的发展。

三、视觉-语言-动作模型

A. 视觉-语言-动作模型的组成部分

有一系列工作专注于视觉-语言-动作模型的各个组成部分，借鉴了计算机视觉、自然语言处理和强化学习领域的成果。我们从具身人工智能的角度介绍这些组成部分。

1. 强化学习：强化学习轨迹以状态-动作-奖励序列为特征，自然符合序列建模问题的结构，因此非常适合Transformer模型。这些强化学习Transformer已成为许多近期视觉-语言-动作模型的基础。这方面的开创性工作包括决策Transformer（DT）和轨迹Transformer（TT）。Gato进一步将这一范式扩展到多模态/任务/实体设置。

人类反馈强化学习（RLHF）已成为大型语言模型的重要训练要素。SEED将人类反馈强化学习与基于技能的强化学习相结合，以解决机器人学习中长时任务的稀疏奖励问题。Reflexion提出了一种新颖的语言强化学习框架，用语言反馈代替强化学习模型中的权重更新。

2. 预训练视觉表征：视觉编码器的有效性直接影响视觉-语言-动作模型的性能，因为它提供了关于当前状态的关键信息，如物体类别、位置和可用性。因此，许多方法致力于提高预训练视觉表征（PVRs）的质量。表I比较了它们的技术细节。

表I：预训练视觉表征。V：视觉；L：语言；CL：对比学习；TFM：Transformer；Sim/Real：模拟/现实世界；Mani/Navi：操作/导航。为简单起见，我们只展示目标方程的主要部分，省略了温度、辅助损失等元素。是某种相似性度量。

CLIP已被广泛用作机器人模型中的视觉编码器。CLIP的训练目标是在给定批次的所有可能组合中识别正确的文本-图像对。CLIP在WIT数据集上进行训练，该数据集包含4亿个图像-文本对。这种大规模训练使CLIP能够深入理解视觉和文本信息之间的关系。

R3M提出了两个主要的预训练目标：时间对比学习和视频-语言对齐。时间对比学习的目标是最小化时间上接近的视频帧之间的距离，同时增加时间上远离的帧之间的分离度。这一目标旨在创建能够捕捉视频序列中时间关系的预训练视觉表征。另一方面，视频-语言对齐是为了学习视频是否与语言指令相对应。这一目标丰富了预训练视觉表征中嵌入的语义相关性。VIP也利用了视频的时间关系。

MVP将计算机视觉中的掩码自编码器（MAE）应用于机器人数据集。掩码自编码器包括掩盖输入到ViT模型的一部分补丁，并训练模型重建损坏的补丁。这种方法与BERT中使用的掩码语言建模技术非常相似，属于自监督训练的范畴。RPT在预训练时不仅注重重建视觉输入，还注重机器人动作和本体感受状态。

Voltron通过将语言条件和语言生成纳入掩码自编码器目标，引入了一种预训练目标。采用编码器-解码器Transformer结构，预训练在语言条件掩码图像重建和从掩码图像生成语言之间交替进行。这增强了语言和视觉模态之间的对齐。

VC-1深入研究了先前的预训练视觉表征，并通过系统地探索不同数据集上的最佳ViT配置，引入了一种增强的预训练视觉表征模型。此外，他们在各种操作和导航数据集上对自己的模型与先前方法进行了全面的比较分析，揭示了有助于改进预训练视觉表征的关键因素。另一项研究也比较了在监督学习或自监督学习下获得的先前预训练视觉表征。

DINOv2为预训练视觉表征提出了一种新的自监督训练范式，其性能超过了掩码自编码器。它采用自蒸馏框架，其中教师和学生网络接收同一图像的不同视图，并匹配它们的编码表征。学生网络使用随机梯度下降进行更新，而教师网络则保持为学生网络的指数移动平均。

I-JEPA的灵感来自[55]提出的联合嵌入预测架构。它通过比较补丁的嵌入来构建“原始”内部世界模型。与使用裁剪图像的DINO不同，I-JEPA采用掩码补丁。此外，它与掩码自编码器不同，因为它是一种非生成方法。

Theia提出将各种视觉基础模型蒸馏到单个模型中。通过融合来自分割、深度、语义等方面的信息，它在需要更少数据和更小模型尺寸的同时，性能超过了先前的预训练视觉表征。

3. 视频表征：视频是简单的图像序列，可以通过连接每个帧的常用预训练视觉表征来表示。然而，它们的多视图特性使得除上述技术外，还可以采用多种独特的表征技术，如时间对比学习和掩码自编码器。可以从视频中提取神经辐射场（NeRF），其包含丰富的3D信息用于机器人学习，如F3RM和3D-LLM所示。最近的3D高斯溅射（3D-GS）方法在计算机视觉和具身人工智能中越来越受欢迎。如PhysGaussian所提出的，3D高斯可以通过基于物理的模拟进行变形以实现生成动力学，或者如UniGS所实现的，它们可以作为视觉-语言模型的3D表征。此外，许多视频包含音频，这可以为机器人策略提供重要线索。
4. 动力学学习：动力学学习包括旨在使模型理解前向或逆向动力学的目标。前向动力学涉及预测给定动作产生的后续状态，而逆向动力学则需要确定从先前状态过渡到已知后续状态所需的动作：

前向动力学逆向动力学

一些方法还将这些目标构建为打乱状态序列的重新排序问题。一些前向动力学方法与预训练视觉表征中使用的图像或视频预测预训练非常相似。我们在表II中对它们进行了比较。

表II：视觉-语言-动作模型的动力学学习方法。是动力学模型。Fwd、inv：前向和逆向动力学。

Vi-PRoM提出了三个不同的预训练目标。第一个是旨在区分不同视频的对比自监督学习目标。其余两个目标以监督学习任务为中心：时间动力学学习（旨在恢复打乱的视频帧）和采用伪标签的图像分类。通过与先前的预训练方法进行全面比较，Vi-PRoM展示了其在行为克隆和PPO中的有效性。

MIDAS在其预训练中引入了逆向动力学预测任务。其目标是训练模型从观测中预测动作，将其构建为运动跟随任务。这种方法增强了模型对环境过渡动力学的理解。

SMART提出了一种包含三个不同目标的预训练方案：前向动力学预测、逆向动力学预测和随机掩码后见之明控制。前向动力学预测任务涉及预测下一个潜在状态，而逆向动力学预测任务则需要预测最后一个动作。在后见之明控制中，整个控制序列被作为输入提供，其中一些动作被掩码，模型被训练以恢复这些掩码的动作。前两个动力学预测任务的纳入有助于捕捉局部和短期动力学，而第三个任务旨在捕捉全局和长期时间依赖性。

MaskDP具有掩码决策预测任务，其中状态和动作令牌都被掩码以进行重建。这种掩码建模任务专门旨在使模型理解前向和逆向动力学。值得注意的是，与BERT或掩码自编码器等先前的掩码建模方法相比，MaskDP直接应用于下游任务。

PACT引入了一个旨在建模状态-动作过渡的预训练目标。它接收状态和动作序列作为输入，并自回归地预测每个状态和动作令牌。这个预训练模型充当动力学模型，然后可以针对各种下游任务（如定位、映射和导航）进行微调。

VPT提出了一种视频预训练方法，该方法利用未标记的互联网数据来预训练Minecraft游戏的基础模型。该方法首先使用有限的标记数据训练逆向动力学模型，然后利用该模型标记互联网视频。随后，通过行为克隆，使用这种新的自动标记数据来训练VPT基础模型。这种方法遵循半监督模仿学习。因此，该模型在多种任务上展示出人类水平的性能。

GR-1引入了为GPT风格模型量身定制的视频预测预训练。预测未来帧的能力与前向动力学学习一致，有助于更准确的动作预测。

5. 世界模型：世界模型编码关于世界的常识知识，并预测给定动作的未来状态：

它使具身智能体能够进行基于模型的控制和规划，因为它们可以在执行任何实际动作之前在想象空间中搜索最优动作序列。尽管前向动力学学习也试图预测下一个状态，但它通常被视为 pretraining 任务或辅助损失，以增强基于强化学习-Transformer的动作解码器用于主要的机器人任务，而不是作为独立模块。此外，可以从明确生成未来状态的图像或视频的视觉世界模型中采样新的具身经验。

Dreamer采用三个主要模块来构建潜在动力学模型：负责将图像编码为潜在状态的表征模型；捕捉潜在状态之间过渡的过渡模型；以及预测给定状态相关奖励的奖励模型。在actor-critic框架下，Dreamer利用动作模型和价值模型，通过在学习到的动力学中传播解析梯度，通过想象来学习行为。在此基础上，DreamerV2引入了离散的潜在状态空间以及改进的目标。DreamerV3将其重点扩展到具有固定超参数的更广泛领域。DayDreamer将这种方法应用于执行现实世界任务的物理机器人。

IRIS采用类GPT的自回归Transformer作为其世界模型的基础，VQ-VAE作为视觉编码器。随后，使用由世界模型从真实观测展开的想象轨迹来训练策略。TWM也研究了Transformer在构建世界模型中的应用。

6. 大型语言模型诱导的世界模型：大型语言模型包含丰富的关于世界的常识知识，促使许多方法利用这些知识来改进视觉-语言-动作模型。

DECKARD提示大型语言模型生成表示为有向无环图的抽象世界模型（AWMs），专门用于Minecraft中的物品制作任务。DECKARD在两个阶段之间迭代：在“梦境”阶段，它在抽象世界模型的指导下采样子目标；在“清醒”阶段，DECKARD执行子目标并通过与游戏的交互更新抽象世界模型。这种有指导的方法使DECKARD能够比缺乏这种指导的基线更快地完成物品制作。

LLM-DM使用大型语言模型构建规划域定义语言（PDDL）中的世界模型，而LLM+P未实现这一点，因为其PDDL世界模型是手工制作的。大型语言模型还充当接口，在生成的PDDL模型与来自语法验证器和人类专家的纠正反馈之间进行调解。最后，PDDL世界模型充当符号模拟器，协助大型语言模型规划器生成计划。

RAP重新利用大型语言模型，使其既作为预测动作的策略，又作为提供状态过渡分布的世界模型。与先前的思维链提示方法不同，RAP结合了蒙特卡洛树搜索（MCTS）以实现结构化规划，使大型语言模型能够逐步构建推理树。这种推理策略帮助RAP找到平衡探索和利用的高奖励路径。Tree-Planner通过仅提示大型语言模型一次以在动作树中生成多样化路径来提高效率。

LLM-MCTS在RAP的基础上构建，但将问题设置扩展到部分可观测马尔可夫决策过程。作为世界模型，大型语言模型生成当前状态的初始信念；作为策略，它充当启发式方法来指导动作选择。通过利用其常识知识，大型语言模型减少了蒙特卡洛树搜索的搜索空间，从而提高了搜索效率。

7. 视觉世界模型：与文本形式的大型语言模型诱导的世界模型不同，视觉世界模型生成未来状态的图像、视频或3D场景，与物理世界更一致。它们还可以进一步用于生成新的轨迹。自从Sora展示了世界模拟能力以来，这一方向越来越受到关注，一项专门的综述对此进行了研究。

Genie引入了一类新的生成模型，称为生成交互式环境。它由三个主要组件组成：时空视频令牌器、自回归动力学模型和潜在动作模型。在以无监督方式在未标记视频上训练后，Genie允许用户在逐帧基础上与生成环境交互。因此，Genie建立了一个基础世界模型。

3D-VLA提出了一种能够生成目标的3D世界模型。它处理视觉输入（如图像、深度图和点云），然后响应用户的查询，使用扩散模型生成目标状态（作为图像或点云）。生成的目标状态随后可用于指导机器人控制。

UniSim基于现实世界交互视频构建生成模型。它能够模拟高级别和低级别动作的视觉结果，然后可以将其用作训练具身智能体的新经验。E2WM甚至将现有模拟器视为世界模型，通过蒙特卡洛树搜索收集具身经验。

8. 推理：推理已成为大型语言模型的关键能力，如思维链（CoT）方法所示。在具身人工智能中，研究人员正在探索如何利用思维链推理来完善决策过程。

ThinkBot将其应用于恢复稀疏人类指令中缺失的动作描述。RAT结合检索增强生成和思维链，以引发上下文感知推理，改进长时生成。ReAct交替使用语言推理轨迹和动作，以允许各种类型的推理。Tree-Planner采用思维树方法。ECoT使用推理链数据集重新训练OpenVLA，实现具身思维链推理，进一步提高其性能。

优缺点：
a) 预训练视觉表征：尽管使用视频的时间对比学习和CLIP等文本引导的预训练方法提供了图像级信息，但它们缺乏基于掩码自编码器的自监督学习方法所提供的像素级细节。像素级信息包含丰富的细节，包括分割掩码、物体位置和深度估计，这些通常对需要高精度的机器人操作任务更有用，如VC-1的比较所示。DINOv2通过将掩码图像建模与动量编码器和多裁剪增强相结合，学习像素级和图像级特征，OpenVLA证明了其对下游机器人任务的好处。I-JEPA专注于表征空间中的补丁，因此比DINO等视图不变性方法更有效地捕捉低级图像特征。Theia将各种现成的视觉基础模型蒸馏到单个模型中，该模型超越了孤立的单个模型，如在机器人学习中对大多数现有预训练视觉表征的综合评估所示。

b) 前向和逆向动力学：前向动力学学习通常比逆向动力学学习更具挑战性，因为预测未来状态比预测过去的动作更复杂。因此，前向动力学的难度往往会带来更大的性能提升，如SMART所示。然而，逆向动力学模型可用于为仅包含状态的数据集（如原始机器人操作视频）生成动作标签。

c) 世界模型和推理：尽管世界模型和推理方法都可应用于低级别控制策略和高级别任务规划器，但当前的方法仍然不同。世界模型主要用于与控制策略交互，因为它们擅长在给定低级别动作的情况下生成即时的下一个状态。相比之下，基于思维链的推理方法专注于任务规划，因为它们以文本形式表达思维链，使其非常适合完善基于文本的任务计划。

B. 低级别控制策略

通过将动作解码器与感知模块（如视觉编码器和语言编码器）集成，形成了具有参数θ的视觉-语言-动作模型作为控制策略，以执行语言指令：

控制策略网络之间的差异源于各个模块和整体架构。最典型的架构如图1所示。本节探讨设计低级别控制策略的各种方法。表III总结了它们的技术细节。

1. 非Transformer控制策略：在采用Transformer模型之前，用于受语言条件约束的机器人任务的早期控制策略在架构上差异很大。

CLIPort将CLIP的视觉和语言编码器与Transporter网络集成，创建了双流架构。在一个流中，CLIP的视觉编码器从RGB图像中提取“语义”信息，而在另一个流中，Transporter网络从RGB-D图像中提取“空间”信息。CLIP句子编码器对语言指令进行编码，并指导输出动作（即末端执行器的两个姿态：拾取姿态和放置姿态）。CLIPort展示了按照语言指令拾取和放置物体的能力。

BC-Z处理两种类型的任务指令：语言指令或人类演示视频。环境以RGB图像的形式呈现给模型。然后，指令嵌入和图像嵌入通过FiLM层组合，最终生成动作。据称，这种条件策略对未见过的任务表现出零样本任务泛化能力。

MCIL是第一个集成自由形式自然语言条件的机器人策略。这与早期通常依赖任务ID或目标图像形式的条件的方法形成对比。MCIL引入了利用未标记和非结构化演示数据的能力。这是通过训练策略以遵循图像或语言目标来实现的，其中训练数据集的一小部分由成对的图像和语言目标组成。

HULC引入了几种旨在增强机器人学习架构的技术。这些包括机器人学习的分层分解、多模态Transformer和离散潜在计划。Transformer学习高级别行为，将低级别局部策略和全局计划分层划分。此外，HULC包含基于对比学习的视觉-语言语义对齐损失，以对齐视觉-语言模态。HULC++进一步集成了自监督可用性模型。该模型指导HULC到达语言指令指定的可操作区域，使其能够在该指定区域内完成任务。

UniPi将决策问题视为文本条件视频生成问题。为了预测动作，UniPi基于给定的文本指令生成视频，并通过逆向动力学从视频帧中提取动作。这种创新的“策略即视频”公式具有几个优点，包括增强在各种机器人任务中的泛化能力，以及从互联网视频到真实机器人的知识转移潜力。

2. 基于Transformer的控制策略：自从引入Transformer以来，控制策略已经收敛到类似的基于Transformer的架构。

Interactive Language提出了一种机器人系统，其中低级别控制策略可以通过语言实时接受人类指令的指导，从而完成长时重排任务。这种基于语言的指导的有效性主要归功于利用了精心收集的包含多样化语言指令的数据集，其规模比以前的数据集大一个数量级。

Hiveformer特别强调利用多视图场景观测并为受语言条件约束的策略维护完整的观测历史。这种方法代表了对CLIPort和BC-Z等先前系统的改进，这些系统仅使用当前观测。值得注意的是，Hiveformer是最早采用Transformer架构作为其策略骨干的系统之一。

Gato提出了一种模型，该模型可以玩Atari游戏、为图像添加 caption 以及堆叠块，所有这些都使用一组模型参数。这一成就得益于统一的令牌化方案，该方案协调了不同任务和领域的输入和输出。因此，Gato能够同时训练不同的任务。作为一个重要的里程碑，Gato展示了构建“多模态、多任务、多实体通用智能体”的潜力。

RoboCat提出了一种自我改进过程，旨在使智能体能够快速适应新任务，只需最少100次演示。这种自我改进过程迭代地微调模型，并使用微调后的模型自行生成新数据。RoboCat基于Gato模型构建，集成了VQ-GAN图像编码器。在训练期间，RoboCat不仅预测下一个动作，还预测未来的观测。在多任务、多实体设置下，在模拟和现实世界环境中进行的综合实验证明了自我改进过程的有效性。

RT-1由与BC-Z相同的团队开发，与BC-Z有相似之处，但也引入了一些关键区别。值得注意的是，RT-1采用基于更高效的EfficientNet的视觉编码器，不同于BC-Z使用的ResNet。然而，RT-1不使用视频作为任务指令。此外，RT-1用Transformer解码器替换了BC-Z中的MLP动作解码器，生成离散化的动作。这种修改使RT-1能够关注过去的图像，与BC-Z相比性能有所提升。

Q-Transformer通过引入自回归Q函数来扩展RT-1。与通过模仿学习学习专家轨迹的RT-1不同，Q-Transformer采用Q学习方法。除了Q学习的时间差分误差目标外，还纳入了保守正则化器，以确保最大值动作保持在分布内。这种方法允许Q-Transformer不仅利用成功的演示，还利用失败的轨迹进行学习。

RT-Trajectory采用轨迹草图作为策略条件，而不是依赖语言条件或目标条件。这些轨迹草图由曲线组成，描绘了机器人末端执行器要遵循的预期轨迹。它们可以通过图形用户界面手动指定、从人类演示视频中提取或由基础模型生成。RT-Trajectory的策略基于RT-1的骨干构建，并经过训练以控制机器人手臂准确遵循轨迹草图。这种方法有助于对新物体、任务和技能的泛化，因为来自各种任务的轨迹是可转移的。

ACT构建了具有动作分块的条件VAE策略，要求策略预测动作序列而不是单个动作。在推理期间，使用称为时间集成的方法对动作序列进行平均。RoboAgent通过其MT-ACT模型扩展了这种方法，表明动作分块提高了时间一致性。此外，RoboAgent引入了一种语义增强方法，该方法利用图像修复来增强现有演示。

RoboFlamingo通过将基于LSTM的策略头附加到视觉-语言模型，使现有的视觉-语言模型Flamingo适应机器人策略。这表明预训练的视觉-语言模型可以有效地转移到受语言条件约束的机器人操作任务。

3. 用于多模态指令的控制策略：多模态指令使指定任务的新方式成为可能，例如通过演示、命名新物体或用手指指向。

VIMA特别强调多模态提示和模型的泛化能力。与传统的纯文本提示相比，通过纳入多模态提示，可以制定更具体和复杂的任务。VIMA引入了四种主要任务类型：物体操作、视觉目标达成、新概念 grounding、单样本视频模仿、视觉约束满足、视觉推理。这些任务通常难以或甚至无法仅使用语言提示来表达。VIMA-Bench的开发旨在跨四个泛化级别进行评估：放置、组合、新物体、新任务。

MOO将RT-1扩展到处理多模态提示。利用RT-1的骨干，MOO集成OWL-ViT来编码提示中的图像。通过用新物体和额外的提示图像扩展RT-1数据集，MOO增强了RT-1的泛化能力。这种扩展还促进了指定目标物体的新方法，例如用手指指向和点击图形用户界面。

4. 具有3D视觉的控制策略：我们生活在3D世界中，直观地说，使用3D表征作为视觉输入应该比2D图像提供更丰富的信息。点云是表示3D输入的流行选择，因为它们可以直接从RGBD输入导出，如DP3和3D Diffuser Actor所示。然而，体素也在各种工作中得到探索。RoboUniView通过将3D信息注入RoboFlamingo，通过其新颖的UVFormer模块作为其视觉编码器（提供来自多视角图像的3D占用信息），展示了性能提升。VER还提出以粗到细的方式将多视图图像体素化为3D单元，提高视觉-语言导航任务的性能。

PerAct通过利用3D体素表征，在观测和动作空间方面都取得了进步。这种方法为动作学习提供了强大的结构先验，能够自然地处理多视图观测，并促进6DoF的数据增强。在该框架中，模型的输入包括从RGBD图像重建的体素图，而输出对应于指导 gripper 移动的最佳体素。通过采用这种公式，PerAct即使在只有少量演示的情况下也能促进高效的任务学习。另一方面，Act3D引入了连续分辨率3D特征场，其分辨率基于当前任务自适应调整，解决了体素化的计算成本问题。RVT、RVT-2提出从场景点云的虚拟视图重新渲染图像，并使用这些图像作为输入，而不是直接依赖3D输入。

5. 基于扩散的控制策略：基于扩散的动作生成利用了扩散模型在计算机视觉领域的成功。

Diffusion Policy将机器人策略构建为DDPM。这种方法集成了多种技术，包括滚动时域控制、视觉条件和时间序列扩散Transformer。这种基于扩散的视觉-运动策略的有效性体现在其在多模态动作分布、高维动作空间和训练稳定性方面的熟练程度上。

SUDD提出了一个框架，其中大型语言模型指导数据生成，随后将过滤后的数据集蒸馏到视觉-语言-运动策略中。该框架通过将大型语言模型与一套原始机器人工具（如抓取采样器和运动规划器）组合来实现基于语言的指导数据生成。然后，它通过纳入基于语言的条件进行多任务学习来扩展Diffusion Policy，并促进过滤后数据集的蒸馏。

Octo引入了一种基于Transformer的扩散策略，其特点是模块化开放框架设计，允许将不同的任务定义编码器、观测编码器和动作解码器灵活连接到Octo Transformer。作为最早利用Open X-Embodiment数据集的方法之一，Octo展示了在各种机器人和任务中的正向转移和泛化能力。

MDT将计算机视觉中新引入的DiT模型适应到动作预测头。DiT最初是作为基于Transformer的扩散模型提出的，取代了用于视频生成的经典U-Net架构。结合两个辅助目标（掩码生成远见和对比潜在对齐），MDT展示了比基于U-Net的扩散模型SUDD更好的性能。

RDT-1B是一种基于扩散的双足操作基础模型，也基于DiT构建。它通过引入跨各种机器人的统一动作格式来解决数据稀缺问题，从而能够在具有超过6K轨迹的异构多机器人数据集上进行预训练。因此，RDT可扩展到12亿参数，并展示出零样本泛化能力。

6. 具有3D视觉的基于扩散的控制策略：已有几项工作提出将3D视觉与基于扩散的策略相结合。DP3将3D输入引入扩散策略，从而提高了性能。同样，3D Diffuser Actor与DP3的核心思想相同，但在模型架构上有所不同，它将Act3D与Diffusion Policy相结合。
7. 用于运动规划的控制策略：运动规划涉及将运动任务分解为离散的航点，同时满足避障和运动学限制等约束。

Language costs提出了一种使用自然语言进行人机交互机器人控制系统中机器人校正的新方法。这种方法利用从人类指令生成的预测成本图，然后运动规划器利用这些成本图来计算最优动作。该框架使用户能够通过直观的语言命令校正目标、指定偏好或从错误中恢复。

VoxPoser利用大型语言模型和视觉-语言模型创建两个表示可用性和约束的3D体素图。它利用大型语言模型的编程能力和视觉-语言模型的感知能力。大型语言模型将语言指令转换为可执行代码，调用视觉-语言模型以获得物体坐标。基于组合的可用性和约束图，VoxPoser采用模型预测控制为机器人手臂的末端执行器生成可行轨迹。值得注意的是，VoxPoser不需要任何训练，因为它直接连接大型语言模型和视觉-语言模型进行运动规划。

RoboTAP将演示分解为以 gripper 的开合为标志的阶段。在每个阶段，RoboTAP使用TAPIR算法检测跟踪相关物体从源姿态到目标姿态的活动点。然后，该路径可用于视觉伺服以控制机器人。通过将这些阶段串联起来创建运动计划，实现了少样本视觉模仿。

8. 具有基于点的动作的控制策略：最近的研究探索了利用视觉-语言模型的能力来选择或预测基于点的动作，这是构建完整视觉-语言-动作模型的一种经济高效的替代方案。

PIVOT将机器人任务视为视觉问答，利用视觉-语言模型从一组视觉建议中选择最佳机器人动作。视觉建议以图像上关键点的形式进行标注。视觉-语言模型被迭代提示以优化它们，直到确定最佳选项。

RoboPoint通过空间可用性预测任务微调视觉-语言模型，即在图像上指出要作用的位置。这些2D图像上的可用性点随后使用深度图投影到3D空间中，形成预测的机器人动作。

ReKep是一个约束函数，将场景中的3D关键点映射到数值成本。机器人操作任务可以表示为一系列ReKep约束，这些约束由大型视觉模型和视觉-语言模型生成。因此，可以通过解决约束优化问题来获得机器人动作。

9. 大型视觉-语言-动作模型：大型视觉-语言-动作模型等同于RT-2提出的原始视觉-语言-动作模型定义，如图2a所示。这个术语类似于大型语言模型与通用语言模型之间的区别，或者大型视觉-语言模型与通用视觉-语言模型之间的区别。

RT-2努力利用大型多模态模型在机器人任务中的能力，从PaLI-X和PaLM-E等模型中汲取灵感。该方法引入了协同微调，旨在使模型适应互联网规模的视觉问答（VQA）数据和机器人数据。这种训练方案增强了模型的泛化能力，并带来了新兴能力。

RT-H引入了动作层次结构，包括位于语言指令和低级别动作（平移和旋转）之间的语言运动中间预测层。这个额外的层有助于改进不同任务之间的数据共享。例如，语言指令“拾取”和“倾倒”都可能涉及语言运动“将手臂向上移动”。此外，这种动作层次结构使用户能够指定纠正措施以从失败中恢复，模型可以从中学习。

RT-X在先前的RT-1和RT-2模型的基础上构建。这些模型使用新引入的开源大型数据集（名为Open X-Embodiment，OXE）重新训练，该数据集比以前的数据集大几个数量级。由此产生的模型RT-1-X和RT-2-X都优于其原始版本。

OpenVLA后来被开发为RT-2-X的开源对应物。他们还探索了有效的微调方法，包括LoRA和模型量化。

提出了一种流匹配架构，用于将视觉-语言模型转换为视觉-语言-动作模型。通过在混合专家框架的基础上纳入额外的动作专家，它有效地继承了视觉-语言模型中的互联网规模知识，同时扩展了其解决机器人任务的能力。

优缺点：
a) 架构：各种视觉-语言-动作模型架构探索了融合视觉和语言输入的不同方法，包括交叉注意力、FiLM和串联，如图5所示。RT-1中使用了FiLM层，因此其后续工作继承了这种机制。虽然交叉注意力在较小的模型尺寸下可能提供更好的性能，但串联实现更简单，并且在较大的模型中可以实现相当的结果。

b) 动作类型及其训练目标：大多数低级别控制策略预测末端执行器姿态的动作，同时抽象出产生更精细运动的运动规划模块。虽然这种抽象有助于更好地泛化到不同的实体，但也限制了灵活性。

行为克隆（BC）目标用于模仿学习，针对不同的动作类型有不同的变体。连续动作的行为克隆目标可以写成：

其中MSE()代表均方误差。是来自专家演示的动作注释。

离散动作是通过将动作值范围划分为多个区间来实现的。其行为克隆目标是：

其中CE(·)代表交叉熵损失。

CLIPort和VIMA使用动作，其行为克隆目标可以表示如下：

基于扩散的控制策略中的DDPM目标表示为：

其中是迭代k的随机噪声，是噪声预测网络，即视觉-语言-动作模型。

虽然离散动作在RT-1中表现出优异的性能，但Octo认为它会导致早期抓取问题。动作要求模型仅预测拾取和放置末端执行器姿态，这对于许多桌面操作任务来说已经足够。然而，更复杂的任务（如“将水倒入杯子”）可能需要额外的自由度，因此需要动作。尽管基于点的动作可能是粗粒度的，但它们更容易以零样本方式从视觉-语言模型中获得。

c) RT系列：RT-1启发了一系列“机器人Transformer”模型。Transformer骨干通过利用Transformer的更高容量来吸收更大的机器人数据集，超越了先前的RNN骨干。在RT-1之前是BC-Z，它仅使用MLP层进行动作预测。在RT-1之后，出现了几项工作，每项工作都引入了新的能力。MOO使RT-1适应多模态提示。RT-Trajectory使RT-1能够处理轨迹草图作为提示。Q-Transformer利用Q学习来训练RT-1。基于ViT和大型语言模型的RT-2引入了与RT-1完全不同的架构。RTX使用明显更大的数据集重新训练RT-1和RT-2，从而提高了性能。基于RT-2，RT-H引入了动作层次结构以实现更好的数据共享。

d) 大型视觉-语言-动作模型与视觉-语言-动作模型：虽然大型视觉-语言-动作模型可以大大增强指令跟随能力，因为它们可以更好地解析用户意图，但人们对其训练成本和部署速度存在担忧。特别是，推理速度慢会显著影响动态环境中的性能，因为在推理期间环境可能会发生变化。因此，已经提出了几种方法来提高效率。TinyVLA通过更小的视觉-语言模型和用于机器人动作的扩散头，专注于推理速度和数据效率。DeeR-VLA提出通过带有提前退出的动态推理仅部分激活模型。

四、任务规划器

高级别任务规划器旨在将复杂任务e划分为一系列子任务（即任务计划），每个子任务都作为低级别控制策略的语言指令：

这个过程通常被称为任务分解，也与任务和运动规划（TAMP）设置相关。理想情况下，任务计划还应包含这些子任务的最优调度。配备任务规划器后，视觉-语言-动作模型可以完成更复杂的长时任务，如图4所示。表IV概述了任务规划器的重要细节。

A. 整体式任务规划器

单个大型语言模型或多模态大型语言模型（MLLM）通常可以通过采用定制框架或在具身数据集上进行微调来生成任务计划。我们将这些称为整体式模型。

1. 接地任务规划器：接地任务规划涉及生成高级别动作，同时考虑它们是否可以由低级别控制策略执行。

SayCan是一个旨在将高级别大型语言模型规划器与低级别控制策略集成的框架。在这个框架中，大型语言模型规划器接受用户的高级别指令，并“说出”最可能的下一个低级别技能是什么，这一概念被称为任务接地。低级别策略提供作为可用性函数的值函数，确定该策略“能够”完成该技能的可能性，称为世界接地。通过同时考虑大型语言模型的计划和可用性，该框架为当前状态选择最优技能。

Translated ⟨LM⟩采用两步过程将高级别指令转换为可执行动作。最初，使用预训练的因果大型语言模型进行计划生成，将高级别指令分解为以自由形式语言短语表达的下一个动作。然后，由于这些短语可能不直接映射到VirtualHome动作，因此使用预训练的掩码大型语言模型进行动作转换。这一步涉及计算生成的动作短语与VirtualHome动作之间的相似度。转换后的动作被附加到计划中，并且大型语言模型读取更新后的计划以生成下一个动作短语。重复这两步过程，直到形成完整的计划。还进一步提出了“重新提示”策略，当智能体遇到前置条件错误时生成纠正动作。

是一种学习算法，它在三个步骤之间交替：分割、标记和参数更新。在分割步骤中，将高级别子任务与低级别动作对齐，然后在标记步骤中推断子任务描述，最后更新网络参数。这种方法使分层策略能够通过稀疏的自然语言注释发现可重用的技能。

2. 端到端任务规划器：与大型视觉-语言-动作模型类似，任务规划器可以实现为端到端多模态大型语言模型，利用其互联网规模的知识进行任务规划。显然，它们也是整体式模型。

PaLM-E集成了ViT和PaLM，创建了一个大型具身多模态语言模型，能够执行高级别具身推理任务。基于感知到的图像和高级别语言指令，PaLM-E生成文本计划，作为低级别机器人策略的指令。在移动操作环境中，他们使用SayCan将生成的计划映射到可执行的低级别指令。当低级别策略执行动作时，PaLM-E还可以根据环境的变化重新规划。以PaLM为骨干，PaLM-E既可以处理正常的视觉问答任务，也可以处理额外的具身视觉问答任务。

EmbodiedGPT引入了具身former，其输出与任务相关的实例级特征。这是通过整合来自视觉编码器嵌入的信息和大型语言模型提供的具身规划信息来实现的。实例特征用于告知低级别策略立即采取的下一个动作。

3. 具有3D视觉的端到端任务规划器：一些任务规划器也探索使用3D视觉。由于当前大多数多模态大型语言模型将图像作为视觉输入处理，它们需要改变架构以纳入3D视觉输入，因此它们通常是端到端模型。

LEO使用两阶段训练策略将点云编码器与大型语言模型集成：第一阶段专注于3D视觉-语言对齐，第二阶段涉及3D视觉-语言-动作指令微调。LEO不仅在3D问答任务中表现出色，还在操作、导航和任务规划中表现出色。

3D-LLM将3D信息注入大型语言模型，使它们能够执行3D任务，如3D辅助对话、控制和导航。3D特征可以有多种形式，包括点云、gradSLAM和神经体素场。MultiPLY是一个以物体为中心的具身大型语言模型，它集成了更多的模态，包括音频、触觉和热学。

ShapeLLM基于新颖的3D视觉编码器ReCon++构建，该编码器从多视图图像和文本教师以及点云掩码自编码器中提取知识。通过将ReCon++与LLaMA集成，ShapeLLM在他们新提出的3D基准测试3D MM-Vet上提高了具身交互性能。

B. 模块化任务规划器

在具身数据上微调端到端模型可能成本高昂，因此有一些方法采用模块化设计，通过组装现成的大型语言模型和视觉-语言模型来形成任务规划器。

1. 基于语言的任务规划器：基于语言的方法使用自然语言描述作为交换多模态信息的媒介，如图6a所示。

Inner Monologue位于高级别命令和低级别策略之间，以实现闭环控制规划。它利用大型语言模型为低级别控制策略生成语言指令，并根据从控制策略接收的反馈动态更新这些指令。反馈包括各种来源：成功反馈、物体和场景反馈以及人类反馈。由于反馈以文本格式传达给大型语言模型，因此不需要对大型语言模型进行额外训练。ReAct中使用了类似的方法。

LLM-Planner引入了一种构建分层策略的新方法，该策略包括高级别规划器和低级别规划器。高级别规划器利用大型语言模型生成自然语言计划，而低级别规划器将计划中的每个子目标转换为原始动作。虽然在整体架构上与先前的方法有相似之处，但LLM-Planner的独特之处在于其纳入了重新规划机制，帮助机器人“摆脱困境”。

LID引入了一种称为主动数据收集（ADG）的新颖数据收集程序。ADG的一个关键方面是后见之明重新标记，它为不成功的轨迹重新分配标签，有效地最大限度地利用数据，无论其成功与否。通过将所有环境输入转换为文本描述，他们基于语言模型的策略展示出增强的组合泛化能力。

苏格拉底模型（SMs）提出了一个独特的框架，其中各种预训练模型可以有效地组合，而无需微调。该框架基于称为多模态知情提示的关键组件，促进具有不同多模态能力的模型之间的信息交换。其思想是利用多模态模型将非语言输入转换为语言描述，有效地在语言空间中统一不同的模态。除了在传统多模态任务中表现出色外，苏格拉底模型还展示了其在机器人感知和规划中的多功能性。除了自然语言计划外，任务计划也可以以伪代码的形式表示。

2. 基于代码的任务规划器：基于代码的任务规划器利用大型语言模型的编码能力以程序的形式生成任务计划。可以通过API调用物体检测器、视觉-语言模型和控制策略，如图6b所示。

ProgPrompt通过向大型语言模型提示包含可用动作和物体的类程序规范，引入了一种新颖的任务规划方法。这使大型语言模型能够以少样本方式生成家庭任务的高级别计划。环境反馈可以通过程序中的断言纳入。

ChatGPT for Robotics利用ChatGPT的编程能力促进“用户在环”控制，偏离了传统的“工程师在环”方法。该过程包括几个步骤：首先，定义API列表，如物体检测API、抓取API、移动API；其次，为ChatGPT构建提示，指定环境、API功能、任务目标等；第三，迭代提示ChatGPT使用定义的API编写可以执行任务的代码，前提是能够访问模拟和用户反馈以评估代码质量和安全性；最后，执行ChatGPT生成的代码。在这个过程中，ChatGPT充当高级别任务规划器，通过对相应低级别API的函数调用来生成动作。

代码作为策略（CaP）也利用大型语言模型的代码编写能力。它采用GPT-3或Codex生成策略代码，该代码反过来调用感知模块和控制API。CaP在空间几何推理、对新指令的泛化以及低级别控制原语的参数化方面表现出色。通过利用GPT-4V的多模态能力，COME-robot消除了CaP中对感知API的需求。这也为闭环框架内的开放式推理和自适应规划开辟了可能性，实现了故障恢复和自由形式指令跟随等能力。

DEPS代表“描述、解释、计划和选择”。这种方法利用大型语言模型基于从环境中收集的反馈描述生成计划并解释失败，这一过程称为“自我解释”，有助于重新规划。此外，DEPS引入了一个可训练的目标选择器，根据并行候选子目标的可实现性从中进行选择，这是其他高级别任务规划器经常忽略的关键方面。

ConceptGraphs引入了一种将观测序列转换为开放词汇3D场景图的方法。使用2D分割模型从RGB图像中提取物体，并利用视觉-语言模型对物体进行 caption 并建立物体间关系，从而形成3D场景图。然后，该图可以转换为文本描述（JSON），为大型语言模型提供丰富的实体间语义和空间关系，以进行任务规划。

优缺点：利用接地任务规划的整体式任务规划器专注于生成可执行的计划。像PaLM-E这样的端到端模型与大多数大型视觉-语言-动作模型共享架构，并且可以在专门的具身数据上进行微调以获得更好的性能。然而，此类大型模型的训练成本可能是一个重大问题。相比之下，模块化任务规划器更容易部署，因为它们利用现成的大型语言模型和视觉-语言模型。基于语言的任务规划器的优点是大型语言模型和视觉-语言模型可以无缝集成，因为它们设计为在自然语言空间中运行。然而，它们通常需要额外的步骤来使生成的任务计划与低级别控制策略可接受的语言指令对齐。另一方面，虽然基于代码的任务规划器可能需要预先手动将视觉-语言模型和控制策略包装在API中并准备清晰的文档，但它们支持代码调试并提供更大的可控性。尽管如此，它们的性能可能受到现有模型编程能力的限制。

五、数据集和基准测试

A. 现实世界机器人数据集和基准测试

具身人工智能面临严重的数据稀缺问题，因为现实世界的机器人数据不像语言数据那样容易获得。收集现实世界机器人数据集带来了多个挑战。首先，它受到采购机器人设备、设置环境以及通过专门策略或人类遥操作收集专家数据所需的成本和时间的阻碍。其次，机器人的类型和配置的多样性导致传感数据、控制模式、 gripper 类型等方面的不一致。最后，准确捕获物体6D姿态和重现设置仍然难以实现。我们在表V中总结了最近的机器人数据集。此外，现实世界基准测试由于需要人类评估而更加复杂。

表V：用于机器人学习的最新数据集。根据RT-X中的定义，技能对应于动词，任务是动词和物体的不同组合。∗在模拟器中而非现实世界中收集的数据集。有些数据集在不断更新；此表基于其原始论文中的信息。表改编自[146]、[180]。

B. 模拟器、模拟机器人数据集和基准测试

许多研究人员借助模拟环境来规避现实世界的障碍并扩大数据收集过程。我们在表VI中比较了模拟器和模拟基准测试。尽管如此，这种策略也带来了自身的挑战，其中最主要的是模拟到现实的差距。当在模拟数据上训练的模型在现实世界部署中表现不佳时，就会出现这种差异。这种差距的原因是多方面的，包括不真实的渲染质量、物理模拟的不准确性以及以物体属性和机器人运动规划器为特征的领域转移。例如，模拟非刚性物体（如可变形物体或液体）存在显著困难。此外，将新物体导入模拟器需要相当大的努力，通常涉及3D扫描和网格编辑等技术。尽管存在这些障碍，模拟环境提供了自动化评估指标，帮助研究人员一致地评估机器人模型。许多基准测试基于模拟器，因为它们可以精确地重现实验设置并对不同模型进行公平比较。另一种称为现实到模拟的技术可以提高模拟保真度、重现失败案例或促进数字孪生。

C. 自动化数据集收集

有几种方法提倡自动化数据集收集。RoboGen采用生成模拟范式，提出有趣的技能，模拟相应的环境，并选择最佳学习方法来训练获取这些技能的策略。AutoRT作为由大型语言模型驱动的机器人协调器，生成任务，通过可用性进行过滤，并利用自主策略或人类遥操作者来收集和评估数据。DIAL专注于使用视觉-语言模型增强现有数据集中的语言指令。RoboPoint通过随机化3D布局、物体和相机视角来程序性地生成场景。

D. 人类数据集

解决现实世界中数据稀缺的另一种策略是利用人类数据。人类行为由于其灵活性和多样性，为机器人策略提供了丰富的指导。然而，这种策略也有其固有的缺点。将人类手/身体运动捕获并转移到机器人实体本质上是困难的。此外，人类数据的不一致性构成了障碍，因为有些数据可能是以第一人称视角捕获的，而其他数据是以第三人称视角捕获的。此外，过滤人类数据以提取有用信息可能需要大量人力。这些障碍凸显了将人类数据纳入机器人学习过程的复杂性。UMI提出了一种使用手持 gripper 来缓解这些问题的方法。有关人类数据集的更全面比较，我们建议感兴趣的读者参考[217]。

E. 任务规划基准测试

EgoPlan-Bench专注于通过人类注释对现实世界任务规划进行基准测试。PlanBench全面评估任务规划能力的各个方面，如成本最优性、计划验证和重新规划。LoTa-Bench通过在模拟器中执行生成的计划并计算成功率来直接评估任务规划。具身智能体接口（EAI）认为这种方法无法确定大型语言模型中的问题。通过形式化用于决策任务的基于大型语言模型的模块的输入-输出，EAI实现了除成功率之外更细粒度的指标。

F. 具身问答基准测试

具身问答（EQA）基准测试，如表VII所总结，不直接评估机器人的操作和导航等任务，而是针对具身人工智能的其他相关能力，如空间推理、物理理解以及世界知识。具身问答类似于先前的视觉问答基准测试，但不同之处在于智能体可以在提供答案之前主动探索环境。EmbodiedQA和IQUAD是最早引入此类基准测试的工作之一。MT-EQA专注于涉及多个目标的复杂问题。MP3D-EQA将先前的RGB输入转换为点云，测试3D感知能力。

主动探索需要访问模拟器，这限制了可以使用的数据类型，例如现实世界视频。EgoVQA将视觉问答的焦点转移到第一人称视频。EgoTaskQA强调空间、时间和因果关系推理。EQA-MX研究多模态表达（MX），包括常规语言表达和非语言手势（如眼神和指向）。OpenEQA评估七个主要类别，包括功能推理和世界知识。

六、挑战和未来方向

a) 安全是机器人技术中至关重要的因素，因为机器人直接与物理世界交互。确保机器人系统的安全需要整合现实世界的常识。这包括纳入强大的安全防护措施、风险评估框架以及人机交互协议。人类反馈强化学习（RLHF）和“无需执行的评估”也可以显著降低安全风险。视觉-语言-动作模型决策过程的可解释性和可扩展性对于通过错误诊断和故障排除增强机器人安全性也至关重要。

b) 数据集与基准测试：除了第V节讨论的问题外，仍需要开发涵盖广泛技能、物体、实体和环境的综合基准测试。此外，如具身智能体接口（EAI）针对大型语言模型所强调的，需要除成功率之外的指标来对视觉-语言-动作模型中的问题进行细粒度诊断。

c) 基础模型与泛化：用于具身人工智能的视觉-语言-动作基础模型或机器人基础模型（RFM）仍然是一个开放的研究课题，这主要是由于实体、环境和任务的多样性。许多研究已经取得了重大进展，但仍缺乏与自然语言处理中大型语言模型相当的泛化能力。实现这种水平的泛化极具挑战性，因为它需要开发许多核心人工通用智能能力。

d) 多模态：视觉-语言-动作模型继承了多模态模型的许多挑战，例如获取有用的嵌入和对齐不同的模态。当前的方法，如ImageBind和LanguageBind，分别将不同的模态对齐到图像或语言嵌入空间。在统一的嵌入空间中，多模态大型语言模型可以容纳多种模态并变得更加通用。然而，仅关注嵌入是否足够仍存在争议。尽管超出了视觉-语言-动作模型的范围，但其他模态（如音频和触觉）已被证明对某些具身人工智能应用有用。纳入额外的模态通常是可取的，但它们也会增加模型设计的复杂性。

e) 长时任务框架：分层框架目前是处理长时任务最实用的方法。然而，它增加了系统复杂性和潜在的故障点。频繁的任务执行失败可能触发重新规划，这可能导致显著的延迟。此外，整体式任务规划器与大型视觉-语言-动作模型共享相似的架构，因此使用两个大型模型可能会有冗余，并可能阻碍可扩展性。此外，尽管模块化任务规划器通常不需要训练，但它们并非即插即用：基于语言的模型可能生成控制策略无法执行的子任务，而基于代码的模型需要预先手动将模块包装在API中。因此，值得探索开发一个统一的框架，以端到端的方式将长时任务直接转换为低级别控制信号。

f) 实时响应能力：与对话式人工智能不同，许多机器人应用需要实时决策以响应动态环境。如果推理时间无法跟上环境变化，模型可能会反复生成过时的动作。然而，当前的视觉-语言-动作模型（特别是大型视觉-语言-动作模型和任务规划器）面临速度和容量之间的权衡。因此，需要新的机制来实现最佳平衡。

g) 多智能体系统：协作多智能体系统具有分布式感知和协作故障恢复等优势。然而，它们也面临有效通信、协调调度和群体异质性等挑战。在某些情况下，单个智能体可能有冲突的目标，这进一步增加了复杂性。

h) 伦理和社会影响：机器人技术一直引发各种伦理、法律和社会问题。这些包括与隐私、安全、就业 displacement、决策偏见以及对社会规范和人际关系的影响相关的风险。

i) 应用：当前大多数视觉-语言-动作模型专注于家庭和工业环境，这塑造了可用的数据集和模型。鉴于视觉-语言-动作模型的潜力，可能会有广泛的新应用。一个特别重要的应用是在医疗保健领域，例如手术机器人和护理机器人。医疗保健要求更高的安全和隐私标准，可能需要新颖的技术，如人机协同（HITL）控制和联邦学习。此外，由于显著的领域差距，可能需要专门的视觉模型来处理医学图像。

七、结论

视觉-语言-动作模型在使具身智能体与物理世界交互并满足用户指令方面具有巨大潜力。本文是第一篇同时回顾大型视觉-语言-动作模型和其他广义视觉-语言-动作模型的综述。我们的分类法提供了三个主要研究方向的高级概述：关键组件、控制策略和任务规划器。我们详细总结并比较了它们的模型设计和技术细节。此外，我们强调了训练和评估视觉-语言-动作模型的基本资源，如数据集、模拟器和基准测试。我们希望本综述能够捕捉具身人工智能快速发展的格局，并为未来的研究提供启发。

参考资料

• 标题：A Survey on Vision-Language-Action Models for Embodied AI
• 作者：Yueen Ma, Zixing Song, Yuzheng Zhuang, Jianye Hao, Irwin King
• 单位：Department of Computer Science and Engineering, The Chinese University of Hong Kong; Huawei Noah’s Ark Lab
• 标签：具身人工智能、视觉-语言-动作模型、机器人技术、多模态模型、大型语言模型、世界模型、Transformer
• 概述: 本文首次对具身人工智能中的视觉-语言-动作模型（VLAs）进行全面综述，涵盖其分类法、相关资源、挑战及未来方向。
• 链接：https://arxiv.org/pdf/2405.14093
• 摘要: 本文是首篇针对具身人工智能中视觉-语言-动作模型（VLAs）的综述。首先提出VLAs的详细分类法，将其分为三大研究方向：聚焦VLAs各组成部分、开发擅长预测低级别动作的控制策略、包含能分解长时任务的高级别任务规划器。接着广泛总结了相关资源，包括数据集、模拟器和基准测试。最后讨论了VLAs面临的挑战，并概述了具身人工智能中具有前景的未来方向。