# PaLM-E: An Embodied Multimodal Language Model PaLM-E：一种具象化的多模态语言模型

摘要大型语言模型擅长处理范围广泛的复杂任务。然而，在现实世界中实现一般推理，例如，针对机器人问题，提出了基础的挑战。我们提出具身语言模型，将现实世界的连续传感器模式直接纳入语言模型，从而建立单词和感知之间的联系。我们具体化语言模型的输入是多模态句子，它们交织着视觉、连续状态估计和文本输入编码。我们端到端地训练这些编码，结合预训练的大型语言模型，用于多个具体任务，包括顺序机器人操作规划、视觉问答和字幕。我们的评估表明，PaLM-E 是一个单一的大型具身多模态模型，可以解决各种具身推理任务，来自多种观察方式，在多个实施例中，进一步展示了正迁移：该模型受益于跨互联网规模语言、视觉和视觉语言领域的多样化联合训练。我们最大的模型，具有 562B 参数的 PaLM-E-562B，除了在机器人任务上接受训练外，还是视觉语言通才，在 OK-VQA 上具有最先进的性能，并随着规模的扩大保留了通才语言能力.

# 1. 导语

大型语言模型 (LLMs) 在包括对话在内的各个领域展示了强大的推理能力 (Glaese et al.， 2022;Thoppilan 等人，2022)，逐步推理 (Wei 等人，2022;Kojima 等人，2022)，数学问题解决 (Lewkowycz 等人，2022;Polu 等人，2022) 和代码编写 (Chen 等人，2021a)。然而，这种模型在现实世界中推理的局限性是基础问题：在大量文本数据上训练 llm 可能会导致与我们的物理世界相关的表示，将这些表示与现实世界的视觉和 p 连接起来.

在本文中，我们提出了具身语言模型，它直接包含来自具身代理的传感器模式的连续输入，从而使语言模型本身能够为现实世界中的顺序决策做出更有根据的推断。图像和状态估计等输入被嵌入到与语言标记相同的潜在嵌入中，并由基于 transformer 的 LLM 的自注意层以与文本相同的方式处理。这些编码器经过端到端训练，以输出自然文本形式的顺序决策，嵌入代理可以通过调节低级策略或对嵌入问题给出答案来解释这些文本。我们在各种设置中评估该方法，比较不同的输入表示形式 (例如，用于视觉输入的标准 vs. 以对象为中心的 ViT 编码)，在训练编码器时冻结 vs. 微调语言模型，以及调查在多个任务上的联合训练是否能够实现传输。

为了研究该方法的广度，我们评估了三个机器人操作领域 (其中两个在现实世界中是闭环的)，标准的视觉语言任务，如 VQA 和图像字幕，以及语言任务。我们的结果表明，与单个任务的训练模型相比，多任务训练可以提高性能。我们表明，这种跨任务的迁移可以导致机器人任务的高数据效率，例如，从少量训练示例中显著提高学习成功率，甚至演示了一次或零次泛化到物体或未见物体的新组合。

我们将 PaLM-E 扩展到 562 B 个参数，集成 540 B PaLM (Chowdhery 等人，2022) LLM 和 22 B 的视觉转换器 (ViT) (Dehghani et al.， 2023)，据我们所知，目前报道的最大的视觉语言模型。PaLM-E-562 B 在 OK-VQA (Marino 等人，2019) 基准上实现了最先进的性能，而不依赖于特定于任务的微调。虽然不是我们实验的重点，但我们也发现 (图 2) PaLM-E-562 B 展示了广泛的功能，包括零镜头多模态思维链 (CoT) 推理、少镜头提示、无 ocr 数学推理和多图像推理，尽管它仅在单幅图像示例上进行训练。零镜头 CoT (Kojima 等人，2022)，最初是一个只有语言的概念，已经通过特定于任务的程序在多模态数据上显示 (Zeng 等人，2022)，但据我们所知，不是通过端到端模型。

总结主要贡献，本文 (1) 提出并证明了可以通过将具身数据混合到多模态大型语言模型的训练中来训练一个全面的、迁移学习的多具身决策智能体。

图 2: PaLM-E-562 B 可以进行零镜头多模态思维链推理，可以在给定图像的情况下讲述视觉条件笑话，并演示了一系列与机器人相关的多模态信息功能，包括感知、基于视觉的对话和规划。PaLM-E 还将零镜头 (zero-shot) 推广到多图像提示，尽管它只训练单幅图像提示。PaLM-E 还可以在给定带有文本交错手写数字的图像时进行数学运算。此外，该模型还可以对时间标注的自我中心视觉进行零拍、问答等操作。

视觉条件的笑话 + 少数镜头提示

我看到了 (图片省略)。一头牛坐在地毯上。笑话：为什么牛坐在地毯上？因为它想成为一头奶牛！我看到了。描述：一头驴驮着一只狗、一只猫和一只公鸡。笑话：你管背上有公鸡的驴叫什么？公鸡推进器。

机器人视觉感知、对话和规划

机器人：我是一个在厨房工作的机器人。给定的，我看到了什么？一碗鸡蛋，一碗面粉，一碗糖，还有抹刀.. 还有一个勺子.. 还有一袋面粉.. 还有一袋糖.. 当有人让我做一项任务时，我会按照动作的顺序来回应，我只会用我看到的东西来完成任务。人类：用你看到的所有材料做蛋糕面糊。1. 打破鸡蛋。2. 把鸡蛋放在碗里。3. 把面粉放在碗里。4. 把糖放在碗里。5. 混合。6. 放入锅中。7. 烤。8. 吃了。9. 清理。

[…]

# 2. 相关工作

** 通用视觉 - 语言建模。** 建立在大型语言的成功基础上 (Brown 等人，2020;Devlin et al.， 2018) 和视觉 (Dosovitskiy et al.， 2020) 模型，近年来，人们对大型视觉 - 语言模型 (vlm) 的兴趣越来越大 (Li 等人，2019;Lu 等人，2019;Hao 等人，2022;Gan et al.， 2022)。与它们的前辈不同，vlm 能够同时理解图像和文本，并可应用于视觉问答等任务 (Zhou 等人，2020;Zellers 等人，2021b)、字幕生成 (Hu 等人，2022)、光学字符识别 (Li 等人，2021) 和目标检测 (Chen 等人，2021b)。图像集成的方法多种多样。例如，Alayrac 等人 (2022) 用一种直接处理单个上下文图像的机制增强了预训练语言模型。相比之下，PaLM-E 将图像和文本表示为潜在向量的 “多模态句子”，允许它在句子的任何部分以灵活的方式处理多个图像。与我们的工作更密切相关的是 Frozen (Tsimpoukelli 等人，2021)，其中视觉编码器参数通过冻结的 LLM 反向传播进行优化 (Lu 等人，2021)。在这项工作的启发下，通过引入其他输入模态 (如神经场景表示)，在更广泛的范围内研究了设计，所提出的方法在 VQAv2 基准上的表现比 Frozen 高出 45% 以上。更重要的是，本文证明了 PaLM-E 不仅适用于感知任务，也适用于具身任务。

**Actions-output 模型。** 之前的工作侧重于将具身环境中的视觉和语言输入与直接行动预测的目标相结合 (Guhur 等人，2022;Shridhar 等人，2022b; 张，柴，2021;Silva 等人，2021 年；Jang 等人，2022;Nair 等人，2022; 林奇等人，2022;Brohan 等人，2022)。在这些方法中，VIMA (Jiang 等人，2022) 探索了类似于 PaLM-E 的多模态提示。在这些工作中，语言的作用也许最恰当地描述为任务规范。相比之下，PaLM-E 以文本的形式生成高级指令；这样，模型能够自然地以自己的预测为条件，并直接利用嵌入在其参数中的世界知识。这不仅能实现具身推理，还能实现问答，如实验所示。在输出动作的工作中，可能最相似的是 Gato (Reed 等人，2022) 提出的方法，与 PaLM-E 一样，它是一种多面手多具体智能体。与 Gato 相比，本文展示了不同任务之间的正迁移，模型从多个域的不同联合训练中受益。

# 3.PaLM-E: 一个具身的多模态系统语言模型

PaLM-E 的主要架构思想是将连续的、具身的观察，如图像、状态估计或其他传感器模态注入预训练语言模型的语言嵌入空间。这是通过将连续的观察编码为与语言标记的嵌入空间相同维度的向量序列来实现的。因此，连续信息以类似于语言标记的方式注入到语言模型中。PaLM-E 是一个仅解码器的 LLM，根据给定的前缀或提示自动生成文本补全。将该模型称为 PaLM- e，因为使用 PaLM (Chowdhery 等人，2022) 作为预训练语言模型，并将其具体化。

PaLM-E 的输入由文本和 (多个) 连续观测组成。与这些观察相对应的多模态标记与文本交叉形成多模态句子。一个这样的多模态句子的例子是 Q: 和之间发生了什么？其中表示图像的嵌入。PaLM-E 的输出是模型自动回归生成的文本，它可以是问题的答案，也可以是 PaLM-E 以文本形式生成的一系列决策，这些决策应该由机器人执行。当 PaLM-E 的任务是产生决策或计划时，我们假设存在一个低级策略或规划器，可以将这些决策转换为低级动作。之前的工作讨论了训练这种低级策略的各种方法 (Lynch & Sermanet, 2020;Brohan 等人，2022)，我们直接使用这些先前的方法，而不进行修改。在下文中，我们将更正式地描述我们的方法。

** 仅解码器的 llm。** 仅解码器的大型语言模型 (llm) 是训练来预测文本 w1:L = (w1，…) 的概率 p (w1:L) 的生成模型。， wL) 表示为单词序列 wi∈W。典型的神经结构通过分解

其中 pLM 是一个大型变压器网络。

** 带前缀仅编码器的 LLMs.** 由于 LLM 是自回归的，预先训练的模型可以以前缀 w1:n 为条件，而不需要改变架构

前缀或提示符 w1:n 提供上下文，LLM 在此基础上继续预测后续令牌 wn+1:L。这通常用于引导模型预测的推理。例如，提示符可以包含 LLM 应该解决的任务的描述，或者类似任务所需的文本完成示例。

** 标记嵌入空间。** 标记 wi 是固定词汇表 W 的元素，W 是一个离散的、有限的集合，对应于自然语言中的 (子) 单词。在内部，LLM 将 wi 嵌入到一个词 token 嵌入空间 X⊂R k via γ: W→X，即 pLM (wl |x1:l−1) 与 xi = γ(wi)∈R k。映射 γ 通常表示为一个大小为 k × |W | 的大型嵌入矩阵，并进行端到端训练。在本例中，|W| = 256 000 (Chowdhery 等人，2022)。多模态句子：连续观察的注入。多模态信息，如图像观察，可以通过跳过离散标记级别，直接将连续观察映射到语言嵌入空间 X，注入到 LLM 中。为此，训练一个编码器 φ: O→X q，将一个 (连续) 观测空间 O (详细信息请参阅第 4 节) 映射为 X 中的 q - 多向量序列。然后，这些向量与普通嵌入的文本标记交叉，以形成 LLM 的前缀。这意味着前缀中的每个向量 xi 由单词 token 嵌入器 γ 或编码器 φi 组成:

请注意，单个观测值 Oj 通常被编码为多个嵌入向量。可以在前缀的不同位置交织不同的 φi 编码器，以组合来自不同观测空间的信息。以这种方式将连续信息注入 LLM 重用了其现有的位置编码。与其他 VLM 方法相比 (例如，(Chen 等人，2022))，观察嵌入不是插入在固定位置，而是动态放置在周围的文本中。

** 在机器人控制回路中体现输出：PaLM-E。**PaLM-E 是一种基于多模型句子作为输入生成文本的生成模型。为了将模型的输出连接到实施例，我们区分两种情况。如果任务只能通过输出文本来完成，例如在具身问答或场景描述任务中，那么模型的输出直接被认为是任务的解。

或者，如果 PaLM-E 用于解决具体的规划或控制任务，它将生成生成低级命令的文本。特别是，我们假设能够访问可以从一些 (小) 词汇表执行低级技能的策略，并且 PaLM-E 的成功计划必须包含一系列此类技能。注意，PaLM-E 必须根据训练数据和提示自行确定哪些技能是可用的，并且没有使用其他机制来约束或过滤其输出。尽管这些政策是有语言条件的，但它们不能解决长期任务或接受复杂的指令。因此，PaLM-E 被集成到一个控制循环中，其中它的预测决策由机器人通过低级策略执行，从而产生新的观察结果，PaLM-E 能够在必要时根据这些观察结果重新规划。从这个意义上说，PaLME 可以被理解为对低级策略进行序列和控制的高级策略。

# 4. 不同传感器模态的输入与场景表示

在本节中，我们将描述纳入 PaLM-E 中的各个模态，以及如何设置它们的编码器。为每个编码器提出不同的架构选择，将相应的模态映射到语言嵌入空间。本文研究了状态估计向量、视觉 transformer (vit) (Dosovitskiy 等人，2020; 陈等人，2022;Ryoo 等人，2021)，以及 3d 感知的物体场景表示 Transformer (OSRT) (Sajjadi 等人，2022a)。除了全局表示输入场景的编码器外，还考虑了以物体为中心的表示，将观察结果纳入表示场景中单个物体的标记。

** 状态估计向量。** 状态向量，例如来自机器人或物体的状态估计，可能是最容易输入到 PaLM-E 的。设 s∈rs 是描述场景中物体状态的向量。例如，s 可以包含这些物体的姿态、大小、颜色等。然后，MLP φstate 将 s 映射到语言嵌入空间。

** 视觉 Transformer (ViT)。**ViT φ˜ViT (Dosovitskiy et al.， 2020) 是一种 transformer 架构，将一个 image I 映射到一些 token 嵌入 x˜1:m = φ˜ViT (I)∈R m×k˜。考虑了几种变体，包括 Chen 等人 (2022) 提出的 40 亿参数模型，称为 ViT-4B，以及类似的 220 亿参数模型 ViT22B (Dehghani 等人，2023)，两者都已对图像分类进行了预训练。本文进一步研究了 ViT token learner 架构 (ViT + TL) (Ryoo 等人，2021)，该架构从头开始进行端到端训练。请注意，ViT 嵌入的～k 维不一定与语言模型的～k 维相同。因此，我们将每个嵌入投影到 xi = φViT (I) I = ψ(φ ~ ViT (I) I)，其中 ψ 是一个学习到的仿射变换。

** 对象为中心表示。** 与语言不同，视觉输入没有预先构造成有意义的实体和关系：虽然 ViT 可以捕获语义，但表示的结构类似于静态网格，而不是对象实例的集合。这对与已经在符号上进行预训练的 llm 的接口，以及解决需要与物理对象交互的具身推理提出了挑战。本文还探索了结构化编码器，旨在将视觉输入分离为不同的对象，然后将它们注入 LLM。给定真实物体实例掩模 Mj，我们可以将 ViT 的表示分解为 x j 1:m = φViT (Mj◦I) 对象 j。

** 对象场景表示 Transformer (OSRT)。** 另一种不需要地面真实值分割的替代方法是 OSRT (Sajjadi 等人，2022a): 不依赖关于物体的外部知识，而是通过架构中的归纳偏差以无监督的方式发现它们 (Locatello 等人，2020)。在 SRT (Sajjadi 等人，2022b) 的基础上，OSRT 通过一个新的视图合成任务在域内数据上学习以 3d 为中心的神经场景表示。它的场景表示由对象槽 oj = φ¯OSRT (I1:v) j∈R k¯ 构成。我们将这些槽映射为 x j 1:m = ψ(φ¯OSRT (I1:v) j) 和 MLP ψ。请注意，每个对象总是被标记为多个嵌入，即 ψ: R k¯→R m×k for OSRT 映射为 m - 多个嵌入。

** 实体推荐。** 对于具身规划任务，PaLM-E 必须能够在其生成的规划中引用对象。在许多情况下，包括我们的大多数实验，场景中的物体可以通过它们的一些独特属性来用自然语言识别。然而，也存在一些设置，对象不容易通过几个词的语言识别，例如，如果在不同的位置有相同颜色的表上的多个块。对于以对象为中心的表示，如 OSRT，我们将输入提示中与对象对应的多模态标记标记为：对象 1 是 <obj 1>. . . . 对象 j 是 < obj j>。这使得 PaLM-E 能够在其生成的输出句子中通过 obj j 形式的特殊标记引用对象。在这种情况下，我们假设低级策略也对这些令牌进行操作。

# 5. 训练方法

PaLM-E 在 D = I 1:ui, wi 1:Li, ni ni =1 的数据集上进行训练，其中每个示例 I 由 ui - 许多连续观测 I I j、文本 w I 1:Li 和索引 ni 组成。尽管是一个仅解码器模型，但文本由前缀部分和预测目标组成，该前缀部分由多模态句子组成，直到索引 ni，而预测目标只包含文本标记。因此，损失函数是单个非前缀令牌 w i ni+1:Li 的平均交叉损失。为了在模型中形成多模态句子，我们在文本中有特殊的标记，这些标记被编码器在这些标记的文本位置上的嵌入向量所取代。我们基于预先训练的 PaLM 的 8B, 62B 和 540B 参数变体作为仅解码器的 LLM，我们通过输入编码器将连续观测数据注入其中。这些编码器要么是预先训练的，要么是从头训练的，参见第 4 节。我们将 8B LLM 与 4B ViT 结合称为 PaLM-E12B，类似地，62B LLM + 22B ViT 称为 PaLM-E-84B, 540B LLM + 22B ViT 称为 PaLM-E-562B。

** 模型冻结的变化。** 我们的大多数架构由三个部分组成，一个编码器 φ ~，一个投影机 ψ 和 LLM pLM。在训练 PaLM-E 时，一种方法是更新所有这些组件的参数。然而，如果提供适当的提示，llm 显示出令人印象深刻的推理能力 (Wei 等人，2022)。因此，本文研究了是否可以冻结 LLM 并只训练输入编码器，如果可以，不同模态编码器是如何比较的。在这种情况下，编码器必须产生嵌入向量，使冻结的 LLM 以观察为基础，并将有关实施例能力的信息传播给 LLM。相对于普通的软提示 (Lester 等人，2021)，训练这种编码可以理解为一种输入条件的软提示 (Tsimpoukelli 等人，2021)。在 φOSRT 的实验中，我们也冻结了槽的表示形式，即只更新作为 OSRT 和 LLM 接口的小投影仪 ψ。

** 跨任务的协同训练。** 在实验中，研究了在各种不同的数据上联合训练模型的影响。“完全混合”(参见 App. A) 主要由一组来自各种任务的互联网规模的视觉和语言数据组成。采样频率设置为仅 8.9% 的全混合具身数据，并且每个实施例有多个任务。

# 6. 实验

实验考虑了三个不同机器人实施方案中的不同机器人 (移动) 操纵任务，在仿真和两个不同的真实机器人中。我们参考 https://palm-e.github.io 以获得展示 PaLM-E 在这些任务上的功能的视频。虽然不是工作的重点，但也对 PaLM-E 在一般视觉 - 语言任务上的表现进行了评估，如视觉问答 (VQA)、图像描述和已建立的语言建模任务。

我们将实验调查分为两大类。首先，比较第 4 节中不同的输入表示形式在性能、泛化和数据效率方面的差异。实验的第二个主线集中在一个架构上，即主要的 PaLM- e 版本，由预训练的 ViT 和 PaLM 语言模型组成，该模型将原始图像作为连续输入。本文表明，在许多数据集的混合上训练的单个模型，跨不同任务和跨机器人实施方式，可以在所有这些任务上同时实现高性能。研究了在这些数据集上的协同训练是否能实现迁移 (图 3): 尽管有不同的任务和实施，但通过在任务的混合上进行训练，在单个任务上的性能有所提高。本文研究了协同训练策略和模型参数大小对性能、泛化和数据效率的影响。最后，我们考虑冻结 LLM 并仅训练向 LLM 注入视觉的 ViT 是否是可行的路径。

作为基线，考虑了尚未在具形机器人数据上进行训练的最先进的视觉语言模型 PaLI (Chen 等人，2022)，以及具有 oracle 可视性的 SayCan 算法 (Ahn 等人，2022)。

** 图 3:**PaLME 演示的迁移学习概述：在三个不同的机器人领域中，使用 PaLM 和 ViT 预训练以及机器人和通用视觉语言数据的完全混合，与仅在各自的域内数据上训练相比，性能有了显著提高。每个域的附加数据见表 1、图 4、表 2、表 4

# 6.1. 机器人环境 / 任务

我们的三个机器人环境 (图 1) 包括一个任务和运动规划 (TAMP) 域，机器人必须操作 (抓取和堆叠) 对象，一个桌面推环境和一个移动操作域。在每个领域中，PaLM-E 使用来自该领域的专家数据进行训练。在许多情况下，每个任务的数据量是稀疏的。TAMP 任务涉及对可能计划的大规模组合数学，许多决策序列是不可行的。PaLM-E 必须生成包含多个步骤的计划，这些步骤具有复杂的决策边界。多对象桌面推送环境取自公开可用的语言表数据集 (Lynch et al.， 2022)，具有挑战性，因为它包括多个对象、大量语言和复杂的推送动态。对于 TAMP 和 Language-Table 环境，PaLM-E 必须解释对象的姿势。仅仅知道桌面上有哪些物体或知道它们之间的粗略关系是不够的，关于场景几何的更细粒度的细节对于解决这些任务至关重要。最后，考虑了类似于 SayCan 的移动操作领域 (Ahn 等人，2022)，其中机器人必须在厨房环境中解决各种任务，包括在抽屉中寻找物体，挑选它们，并将它们带到人类面前。对于所有领域，在这些环境中同时考虑规划和 VQA 任务。在移动操作和语言表环境下，PaLM-E 被集成到控制循环中执行现实世界中的规划，并且必须在外部干扰或底层控制策略失效时调整规划。

# 6.2 TAMP 环境

表 7 (附录) 显示了 TAMP 环境的规划成功率和 VQA 性能。LLM 在这些实验中被冻结 (对于预训练的 LLM)。对于表 7 中报告的结果，输入表示是在只包含 TAMP 环境的 96,000 个训练场景的数据集上训练的，即没有其他数据是混合的一部分。对于场景中的 3-5 个物体 (与训练集中的数量相同)，大多数输入表示的表现类似。然而，当增加对象的数量时，使用预训练的 LLM 可以显著提高性能，特别是在实体引用方面。与 8B 变体相比，62 B 的 LLM 显示出更好的分布外泛化，而非预训练的 LLM 基本没有分布外泛化。SayCan 基线 (Ahn et al.， 2022) 利用 oracle 给养函数，在解决这种环境方面存在困难，因为给养函数只限制了目前可能的情况，但信息不足以使 LLM 在 TAMP 环境中构建长期规划。

表 1 显示了在 1% 的数据集上训练 3-5 个对象的结果，这对应于两个规划任务中的每个仅 320 个示例。在这里，我们看到输入表示之间存在显著差异，特别是对于规划任务。首先，在低数据环境下对 LLM 进行预训练是有益的。其次，两种 ViT 变体 (ViT+TL, ViT- 4b) 在解决这少量数据的规划任务方面表现不佳。然而，如果我们在所有其他机器人环境以及通用视觉 - 语言数据集 (ViT-4 B generalist) 上进行联合训练，那么 ViT-4 B 的性能将增加一倍以上。这表明在不同的机器人实施方式和任务之间存在显著的迁移效应。最后，使用 OSRT 作为输入表示在这里获得了最佳性能，展示了 3d 感知对象表示的优势。我们还观察到这里的另一个迁移实例：当我们删除 TAMP VQA 数据，仅在 640 个规划任务示例上进行训练时，性能有 (轻微) 下降。未在机器人数据上训练的最先进的视觉 - 语言模型 PaLI (Chen 等人，2022) 无法解决这些任务。我们只对 q2 (表格左 / 右 / 中间的对象) 和 q3 (垂直对象关系) 进行评估，因为这些最类似于典型的 VQA 任务。

** 图 4:**PaLM- e- 12b 在 TAMP 环境中的规划成功结果 (1% 数据)，比较 PaLM- e 模型的效果 (i) 使用完整的训练混合，(ii) 预训练 (ViT 和 PaLM)，以及 (iii) 冻结或微调语言模型。从完全混合转移是特别有效的。注意，对于这里评估的任务，全混合只包含 1% 的训练数据 (每个 320 个示例)。图中显示的是任务 p1 和 p2 的均值。

# 6.3. Language-Table 环境

表 2 是来自语言表环境的长视距任务的成功率 (Lynch 等人，2022)。PaLM-E 集成到一个控制循环中，该循环将长视距任务和当前图像作为输入，并输出用于低级策略的指令。在互联网规模的视觉和语言上进行联合训练，可以为机器人规划带来更有效的模型，特别是在每个任务只有 10 个演示的少样本情况下。将 12B 模型扩展到 84 B 模型可以改进 3 个任务中的 2 个。与 TAMP 环境一样，SayCan 和零样本 PaLI 都是无效的，无法解决测试中最简单的任务。

** 真实机器人结果和少样本泛化。** 在图 7,a) 中，我们看到 PaLM-E 能够引导一个真实的机器人完成多阶段的桌面操作任务，同时对对抗性干扰保持鲁棒性。给定观察到的图像和一个长期目标，例如 “按颜色将块分类为角”，PaLM-E 以 1hz 的频率输出到 Lynch 等人 (2022) 的策略，该策略以 5hz 的频率输出低级机器人动作。相反，之前的工作 (Lynch 等人，2022) 在循环中涉及到一个人来交互式地指导子目标和修正。在图 5,b) 中，我们看到 PaLME 能够进行一次学习和零次学习。在这里，我们在 100 个不同的长视距任务上对 PaLM-E 进行了微调，每个任务都有一个训练示例，例如 “将所有块放在中心”，“从线上删除蓝色块”。PaLM-E 可以零样本泛化到涉及新对象对的任务 (图 7,c) 和涉及在原始机器人数据集或微调数据集中未见过的对象的任务，例如玩具海龟 (图 5,d)。

# 6.4. 移动操作环境

展示了 PaLM-E 在具有挑战性和多样化的移动操作任务上的性能。我们在很大程度上遵循了 Ahn 等人 (2022) 的设置，其中机器人需要根据人类的指令规划一系列导航和操作动作。例如，如果提示 “我把饮料弄洒了，你能给我拿点东西来清理吗？”，机器人需要规划一个包含 “1。2. 找一块海绵；3. 捡起海绵。4. 把它带给用户。放下海绵。” 在这些任务的启发下，开发了 3 个用例来测试 PaLM-E 的具身推理能力：可视性预测、失败检测和长期规划。低级策略来自 RT-1 (Brohan 等人，2022)，这是一种 transformer 模型，采用 RGB 图像和自然语言指令，并输出末端执行器控制命令。

** 图 5:** 一个 PaLM-E 模型指导两个真实机器人的低级策略。图中显示的是厨房中的长视距移动操作任务，以及桌面操作机器人的一次 / 零次泛化。

** 表 1:**TAMP 环境中不同输入表示的比较 (就成功率而言)，其中来自 TAMP 的数据仅占总训练数据大小的 1%(即 p1、p2 各 320 个样本)。PaLM-E 在具身 VQA 和规划任务上优于 PaLI 和 SayCan。观察到跨域迁移，因为在我们的全数据混合上训练的具有 ViT-4B 的 PaLM-E 提高了规划性能。尽管 OSRT 没有使用大规模数据，但它为学习提供了最有效的输入编码。(GT) 表示提供的以地面真实物体为中心的信息。在所有实验中，LLM 都是冻结的。非以对象为中心的 ViT-4B 变体利用颜色来引用对象，因此这里不能计算 q1。LLM 在这些实验中被冻结 (除了未预训练的情况)。B.1 节描述 q1 -q4, p1, q2 的任务。

** 功能可见性预测。** 本文研究了 PaLM-E 在可视性预测方面的表现，即低级策略的技能是否可以在当前环境中执行。这可以表述为给定的 VQA 问题。Q: 有可能 <技能> 在这里？。PaLM-E 优于 PaLI (零样本)，以及用 QT-OPT 训练的值函数的阈值化 (表 4)。

** 故障检测。** 对于一个机器人进行闭环规划，检测故障也很重要，如 (Huang et al.， 2022c) 所示。给出的多模态提示。Q: Was <skill> 成功？。表 4 显示，PaLM-E 在此数据集上的表现优于 PaLI (零样本) 以及 CLIP 的微调版本。PaLM-E 的性能也优于 Xiao 等人 (2022) 提出的算法，该算法利用两个用后见之明重新标记的数据训练的 CLIP 模型。该方法比我们的方法获取更多的信息，并且专门设计用于解决此数据集上的故障检测。

** 真实机器人的结果：长期规划。** 最后，利用 PaLM-E 对移动操作任务进行端到端的具身规划。这个任务的提示结构是人类的：机器人:<步骤历史>。我看到。PaLM-E 经过训练，以所采取步骤的历史和当前场景的图像观察为条件，生成计划的下一步。在解码每个步骤后，我们将它们映射到 Ahn 等人 (2022) 定义的低级策略。这个过程以自回归的方式完成，直到 PaLM-E 输出 “terminate”。我们使用 (Ahn 等人，2022) 的运行来训练模型，其中包含 2912 个序列。我们在真实厨房中对该模型进行了定性评估，发现该模型可以执行长视距移动操作任务，即使在对抗性干扰下 (图 5)。

# 6.5. 一般视觉语言任务的表现

虽然这不是我们的工作重点，但我们在表 5 中报告了一般视觉 - 语言任务的结果，包括 OKVQA (Marino 等人，2019)，VQA v2 (Goyal 等人，2017) 和 COCO cap (Chen 等人，2015)。一个单一的、通用的 PaLM-E-562B 模型在 OK-VQA 上取得了最高的报告数量，包括优于在 OK-VQA 上专门进行微调的模型。与 (Tsimpoukelli 等人，2021) 相比，据我们所知，PaLM-E 使用冻结的 LLM 在 VQA v2 上实现了最高的性能。这表明 PaLM-E 除了是机器人任务上的具身推理机之外，还是一个有竞争力的视觉语言通才。

** 表 2:**Lynch et al.(2022) 在模拟环境中规划任务的结果

** 表 3:** 表 2 的任务提示

** 表 4:** 移动操作环境：失败检测和可用性预测 (F1 分数)。

** 表 5:** 一般视觉语言任务的结果。对于通用模型，它们是不同评估之间的相同检查点，而特定任务的微调模型对不同任务使用不同的微调模型。COCO 使用 Karpathy 劈叉。在 OK-VQA 上，†是 32-shot (未微调)。

# 6.6. 在一般语言任务上的表现

表 8 报告了 PaLM-E 在自然语言理解 (NLU) 和自然语言生成 (NLG) 任务的 21 个通用语言基准上的平均性能。值得注意的趋势是，随着模型规模的增加，语言能力的灾难性遗忘大大减少。如图 6 所示，而对于最小的 (PaLM- 12B) 模型，在多模态训练期间，其 87.3% 的 NLG 性能 (相对) 下降，而最大的模型 (PaLM-E-562B) 仅下降 3.9%。

# 7. 实验与讨论总结

** 多面手和专家模型 - 转移。** 如图 3 所示，我们在这项工作中展示了几个迁移的实例，这意味着 PaLM-E 同时在不同的任务和数据集上训练，相对于单独在不同任务上训练的模型，可以显著提高性能。在图 4 中，在 “完全混合” 上的协同训练实现了两倍以上的性能。在表 9 中，如果我们添加 LLM/ViT 预训练，并在完整的混合数据上而不是单独的移动操作数据上进行训练，我们看到性能的显著提高。对于表 2 中的语言表实验，我们观察到类似的行为。

** 数据的效率。** 与可用的大量语言或视觉 - 语言数据集相比，机器人数据明显没有那么丰富。如上一段所讨论的，我们的模型展示了迁移，它帮助 PaLM-E 从机器人领域中很少的训练示例中解决机器人任务，例如 Language Table 在 10 到 80 之间，TAMP 在 320 之间。OSRT 的结果展示了使用几何输入表示的另一个数据效率的实例。未来工作的一个有希望的机会是将其与一种受益于大规模视觉数据的方法结合起来。

** 保持语言能力。** 我们展示了两种方法，以在多模态训练中保留模型的语言能力。作为一种选择，冻结 LLM 并仅训练输入编码器是构建具体语言模型的可行路径，尽管这种方法偶尔会在机器人任务中遇到困难 (表 2)。作为另一种路径，当整个模型进行端到端训练时，随着模型规模的增加，模型仍显著保留其原始语言性能 (图 6)。

# 8. 结论

本文提出通过将图像等多模态信息注入预训练 LLM 的嵌入空间来构建具身语言模型。实验表明，在通用 VQA 和字幕任务上训练的现成的最先进的视觉 - 语言模型不足以完成具具推理任务，以及最近通过可视性建立语言模型的建议的局限性。为克服这些限制，本文提出了 PaLM-E，一种能够在仿真和现实世界中控制不同机器人的单一模型，同时在数量上能够胜任一般的 VQA 和字幕任务。特别是，将神经场景表示 (即 OSRT) 摄取到模型中的新颖架构思想特别有效，即使没有大规模数据。PaLM-E 是在多个机器人实施例以及一般视觉 - 语言任务的不同任务的混合上进行训练的。重要的是，这种多样化的训练导致了从视觉语言领域到具身决策的几种迁移途径，使机器人规划任务能够有效地实现数据。虽然结果表明，冻结的语言模型是通向完全保留其语言能力的通用具形多模态模型的一条可行途径，但也提出了一种未冻结模型的替代途径：扩大语言模型的规模，在成为具形智能体的同时，可以显著减少灾难性遗忘。最大的模型 PaLM-E-562B 展示了涌现的能力，如多模态思维链推理，以及对多个图像进行推理的能力，尽管只在单幅图像提示下进行训练。