深度多模态表示学习：综述（自用）

本文综述了深度多模态表示学习的研究进展。重点探讨了三种主要框架：联合表示、协调表示和编码器-解码器，以及典型模型如概率图模型、多模态自编码器等。文章指出多模态表示学习的核心目标是缩小不同模态间的异质性差距，同时保持各模态特征。当前面临的挑战包括数据标注成本高、模态间语义冲突等。未来方向包括迁移学习、无监督/弱监督学习，以及集成推理机制来解决语义冲突问题。本文为多模态学习领域提供了系统的技术分类和前

A_tidote

1265人浏览 · 2025-06-24 16:56:27

A_tidote · 2025-06-24 16:56:27 发布

文献阅读的顺序：先看标题、摘要、结论、图表知道这篇文章的主要内容，决定是否要精读，再精读每段内容

这里推荐一下B站沐神的AI论文精读合集：如何读论文【论文精读·1】_哔哩哔哩_bilibili

标题

Deep Multimodal Representation Learning: A Survey

深度多模态表示学习：综述

摘要

多模态表示学习旨在缩小不同模态之间的异质性差距，在无处不在的多模态数据利用中扮演着不可或缺的角色。由于具有多层次抽象的强大表示能力，基于深度学习的多模态表示学习近年来备受关注。本文对深度多模态表示学习进行了全面综述，这是此前从未被完全聚焦过的领域。为了便于讨论如何缩小异质性差距，我们根据不同模态集成的底层结构，将深度多模态表示学习方法分为三个框架：联合表示、协调表示和编码器 - 解码器。此外，我们还回顾了该领域从传统模型到最新技术的一些典型模型。本文从多模态表示学习的视角重点探讨了编码器 - 解码器模型、生成对抗网络和注意力机制等新技术的关键问题 —— 据我们所知，尽管这些技术已成为当代诸多研究的核心焦点，但此前从未被综述过。对于每个框架或模型，我们讨论了其基本结构、学习目标、应用场景、关键问题、优缺点，以便新手和资深研究人员都能从本综述中获益。最后，我们提出了未来工作的若干重要方向。

理解

多模态表示学习的目的：缩小不同模态之间的异质性差距

多模态表示学习的性质：具有多层次抽象的强大表示能力

文章出发点：此前没有完全聚焦于深度多模态表示学习的全面综述

将多模态表示学习分为三个框架的原因：为了讨论如何缩小异质性差距，基于底层结构分类

多模态表示学习的三个框架：联合表示、协调表示、编码器 - 解码器

综述的内容：回顾了该领域从传统模型到最新技术的一些典型模型、新技术的关键问题、未来发展方向

综述的重点：编码器 - 解码器模型、生成对抗网络和注意力机制等新技术的关键问题

重点综述的原因：尽管这些技术已成为研究的核心焦点，但此前从未被综述过

后文框架/模型讨论的内容：基本结构、学习目标、应用场景、关键问题、优缺点

结论和未来方向

在本文中，我们对深度多模态表示学习进行了全面综述。根据不同模态集成的底层结构，我们将深度多模态表示学习方法分为三类框架：联合表示、协调表示和编码器 - 解码器。此外，我们总结了该领域的一些典型模型，从传统模型到新开发的技术，包括概率图模型、多模态自编码器、深度典型相关分析、生成对抗网络和注意力机制。对于每个框架或模型，我们描述了其基本结构、学习目标和应用场景。此外，我们还讨论了它们的关键问题、优点和缺点，这些已在表 3 中简要总结。

框架与模型	关键问题	优势	劣势
联合表示	获取模态不变性属性融合互补语义	融合多种模态	无法推断单个模态
协调表示	最大化跨模态相似性或相关性	可单独推断每个模态	难以协调两种以上模态
跨模态相似性	保持模态间与模态内的相似性	度量跨模态相似性	难以协调两种以上模态
深度典型相关分析（DCCA）	最大化跨模态相关性	无监督学习	难以协调两种以上模态
编码器 - 解码器	捕获共享语义	生成新样本	仅能编码一种模态
概率图模型（PGM）	最大化联合分布	生成缺失模态无监督学习	计算成本高
多模态自编码器	最小化重建损失	保留模态特定特征无监督学习	通用性设计
生成对抗网络（GAN）	缩小分布差异	生成高质量新样本无监督学习	训练不稳定
注意力机制	评估特征重要性选择互补特征	选择显著局部特征过滤噪声	暂无明显缺陷

当涉及到各种学习框架或典型模型的学习目标和关键问题时，我们可以清楚地看到，多模态表示学习的主要目标是在联合语义子空间中缩小分布差距，同时保持模态特定语义的完整性。它们以不同的方式实现这一目标：联合表示框架将所有模态映射到一个全局公共子空间；协调表示框架最大化模态之间的相似性或相关性，同时保持每个模态的独立性；编码器 - 解码器框架最大化模态之间的条件分布并保持其语义一致性；概率图模型最大化跨模态的联合概率分布；多模态自编码器通过最小化重建误差来努力保持模态特定分布的完整性；生成对抗网络旨在通过对抗过程缩小模态之间的分布差异；注意力机制从模态中选择显著特征，使其在局部流形中相似或互补。

随着深度多模态表示学习方法的快速发展，对更多训练数据的需求日益增长。然而，由于人工标注成本高，当前多模态数据集的规模有限。获取高质量的标注数据集极其耗费人力。解决这一问题的一个流行方案是迁移学习，将来自具有大规模数据集的源领域的通用知识迁移到数据不足的目标领域 [168]。迁移学习已在多模态表示学习领域得到广泛应用，并在许多多模态任务中被证明是有效的。一个例子是预训练 CNN 网络（如 VGGNet [48]、ResNet [49]）的重用，可用于多模态系统中的图像特征提取。第二个例子是词嵌入，如 word2vec [50]、GloVe [51]。尽管这些词表示仅在通用语言语料库上训练，但它们可以直接迁移到其他数据集，甚至无需微调。

除了相同模态内的知识迁移，跨模态迁移学习（旨在将知识从一种模态迁移到另一种模态）也是一个重要的研究方向。例如，最近的研究表明，从图像迁移的知识可以帮助提高视频分析任务的性能 [169]。此外，另一种更具挑战性的方法是多模态数据集之间的迁移学习。这种方法的优点是可以利用源领域中不同模态之间的相关信息，缺点是需要同时解决模态差异和领域差异，复杂性较高。

解决依赖大规模标注数据集问题的另一个可行未来方向是无监督或弱监督学习，其可以使用互联网用户生成的海量多模态数据进行训练。无监督学习已广泛用于未标注数据集的降维和特征提取。这就是为什么传统的无监督学习方法（如多模态自编码器）至今仍活跃的原因，尽管与 CNN 或 RNN 特征相比，它们的性能并不突出。出于类似原因，生成对抗网络最近在多模态学习领域引起了广泛关注。

最近，弱监督学习已证明其在挖掘多模态数据背后隐藏的有用知识方面的潜力。例如，给定一幅图像及其描述，很可能有一个片段可以用句子中的某些单词来描述。尽管它们之间的一一对应关系完全未知，但 Karpathy 和 Fei-Fei 的工作 [76] 表明，这些隐藏的关系可以通过弱监督学习来发现。这类基于弱监督方法的一个更有前景的潜在应用是视频分析，其中动作、音频、语言等不同模态已在时间轴上大致对齐。

长期以来，多模态表示学习一直受语义冲突、重复和噪声等问题的困扰。尽管注意力机制可以部分解决这些问题，但它们是隐式工作的，无法主动控制。解决这一问题的一个更有前景的方法是将推理能力集成到多模态表示学习网络中。通过推理机制，系统将能够主动选择急需的证据，这在减轻这些棘手问题的影响方面可以发挥重要作用。我们相信，表示学习与其推理机制的紧密结合将赋予机器智能认知能力。

理解

表3为技术总结，需要重点理解

多模态表示学习的主要目标：在联合语义子空间中缩小分布差距，同时保持模态特定语义的完整性

联合表示框架将所有模态映射到一个全局公共子空间

协调表示框架最大化模态之间的相似性或相关性，同时保持每个模态的独立性

编码器 - 解码器框架最大化模态之间的条件分布并保持其语义一致性

概率图模型最大化跨模态的联合概率分布

多模态自编码器通过最小化重建误差来努力保持模态特定分布的完整性

生成对抗网络旨在通过对抗过程缩小模态之间的分布差异

注意力机制从模态中选择显著特征，使其在局部流形中相似或互补

解决当前多模态数据集规模有限的方案：迁移学习、无监督或弱监督学习

另外的研究方向：跨模态迁移学习、多模态数据集之间的迁移学习

无监督学习已广泛用于未标注数据集的降维和特征提取

弱监督学习已证明其在挖掘多模态数据背后隐藏的有用知识方面的潜力

多模态表示学习一直受语义冲突、重复和噪声等问题的困扰，解决这类问题的方法：注意力机制、推理机制

引言

【界定 “模态” 与 “多模态任务” 的概念，明确研究对象的范畴】

为了传达关于世界中物体的全面信息，描述同一物体不同方面的各种认知信号以不同媒体形式记录，如文本、图像、视频、声音和图表。在表示学习领域，“模态” 一词指编码信息的特定方式或机制。因此，上述不同类型的媒体也称为模态，涉及多种模态的表示学习任务将被称为多模态任务。

【以语音识别为例，阐述多模态数据在信息互补性上的优势，凸显研究价值】

由于多模态数据从不同视角描绘物体，其内容通常具有互补性，因此比单模态数据包含更多信息。例如，早期语音识别研究表明，视觉模态提供唇部运动和口腔发音（如张合）的信息，可帮助提高语音识别性能。因此，利用多种模态提供的综合语义具有重要价值。

【提出 “异质性鸿沟” 问题，分析其对机器学习的阻碍并给出投影至公共子空间的解决方案，确立研究核心问题】

然而，尽管人类通过多个感官器官的综合信息感知世界相对容易，但如何赋予机器类似的认知能力仍是一个开放性问题。我们面临的挑战之一是多模态数据中的异质性鸿沟。如图 1 所示，由于不同模态的特征向量原本位于不同子空间，具有相似语义的向量表示可能完全不同。这种现象被称为异质性鸿沟，它会阻碍多模态数据被后续机器学习模块综合利用。解决该问题的常用方法是将异质特征投影到公共子空间，使具有相似语义的多模态数据在其中由相似向量表示。因此，多模态表示学习的主要目标是在联合语义子空间中缩小分布差距，同时保持模态特定语义的完整性。

【列举已有研究结果，说明多模态表示学习的实际应用成效】

为了缩小异质性鸿沟，过去几十年已开展了大量不同方法的研究。多模态表示学习的进步已惠及众多应用。例如，通过利用多模态融合特征，跨媒体分析任务（如视频分类、事件检测和情感分析）的性能得到提升。此外，通过利用跨模态相似性或相关性，我们能够使用句子作为输入检索图像，反之亦然，这被称为跨模态检索任务。最近，一种新型多模态应用 —— 跨模态翻译在计算机视觉领域引起了极大关注，其目标是将一种模态转换为另一种模态，典型应用包括图像描述、视频描述和文本到图像合成。

【分析深度学习在多层次抽象表示与自动特征学习上的优势，引出深度多模态表示学习受关注的背景】

近年来，由于深度学习具有多层次抽象的强大表示能力，其在计算机视觉、自然语言处理和语音识别等各种应用中取得了优异成果。此外，深度学习的另一个关键优势是可以直接通过通用学习过程学习层次表示，而无需手工设计或选择特征。受此成功启发，作为单模态表示学习自然扩展的深度多模态表示学习最近吸引了大量研究关注。

【明确写作目的】

本文的目标是对深度多模态表示学习进行全面综述，并提出该活跃领域的未来方向。一般来说，基于多模态数据的机器学习任务包括三个必要步骤：模态特定特征提取、旨在将不同模态的多样化特征集成到公共子空间的多模态表示学习，以及推理步骤（如分类或聚类）。本文主要关注深度学习场景下的多模态表示学习第二步，也会简要提及其他两个步骤，但不深入细节。

【阐明研究重点】

本文的重点是在不同多模态应用场景中，如何在保持模态特定语义完整的同时缩小异质性鸿沟的关键问题。为便于讨论，根据不同模态集成的底层结构（如图 2 所示），我们将这些方法分为三类框架：联合表示、协调表示和编码器 - 解码器。每个框架具有独特的架构和集成多模态特征的方法。此外，我们还回顾了一些典型模型，包括概率图模型（PGM）、多模态自编码器、深度典型相关分析（DCCA）、生成对抗网络（GAN）和注意力机制，这些模型已被证明有效或显示出良好的应用前景。

【介绍三大框架的分类逻辑，及对典型模型的综述安排，呈现研究框架】

典型模型与三个框架的关系如表 1 所示。本文描述的每个典型模型可归属于一个或多个框架，或可与这些框架集成。对于每种框架或模型，我们将讨论其基本结构、学习目标、应用场景、关键问题、优缺点，以便新手和有经验的研究人员都能从本综述中受益。不同框架和模型的关键问题将以粗体标注，并在第四节（表 3）中总结。

【与以往综述的不同1】

最近，已发表了几篇与多模态学习主题相关的综述 [17]-[20]。与以往综述相比，本文的重点不同之处在于，我们试图从多模态表示学习和深度学习的交叉视角综述文献，这是此前从未完全聚焦过的领域。例如，Zhao 等人 [17] 的综述主要关注传统方法；Baltrušaitis 等人 [18] 的工作关注多模态机器学习的挑战，而表示学习只是他们定义的五个挑战中的一小部分。从多模态表示学习的角度来看，与我们最接近的是 Li 等人 [19] 的工作，其专注于多视图表示学习（包括浅层和深层方法），而我们则重点关注近年来更受关注的深层方法。从多模态深度学习的角度来看，与我们最接近的是 [20]，其主要综述了依赖多模态特征融合的模型和应用（在本文中归类为联合表示）。与 [20] 相比，本文将讨论更多类型的集成框架和模型。

【与以往综述的不同2】

与以往综述的另一个不同之处在于，我们从多模态表示学习的视角重点探讨了编码器 - 解码器模型、生成对抗网络（GAN）和注意力机制等新技术的关键问题 —— 据我们所知，尽管这些技术已成为当代诸多研究的核心焦点，但此前从未被综述过。例如，以往编码器 - 解码器模型主要作为跨模态翻译任务的实现方式之一被介绍，而本文首次从表示学习的角度对其进行了深入讨论。

【文章结构】

本文其余部分的结构如下：第二节讨论三类框架中缩小异质性鸿沟的关键问题；第三节回顾表 1 中列出的典型模型；第四节以结论收尾，并提出该活跃领域的未来研究方向。

深度多模态表示学习框架

为了便于讨论如何缩小异质性鸿沟，并受文献 [18] 定义的启发，根据图 2 所示的底层结构，我们将深度多模态表示方法分为三类框架：

（i）联合表示，其目标是将单模态表示共同投影到共享语义子空间，从而实现多模态特征的融合；

（ii）协调表示，包括跨模态相似性模型和典型相关分析，旨在为每个模态在协调子空间中学习分离但受约束的表示；

（iii）编码器 - 解码器模型，致力于学习用于将一种模态映射到另一种模态的中间表示。每个框架都有其集成多种模态的方式，并被某些应用所共享。为了大致了解其可能的应用场景，表 2 总结了这些框架的典型应用及涉及的相关模态。

如图 2 所示，在应用多模态表示学习之前，需要通过适当方法提取模态特定特征。因此，在本节中，我们将首先介绍可能对性能产生显著影响的单模态表示方法，然后开始讨论三类框架。

A. 模态特定表示

尽管各种不同的多模态表示学习模型可能共享相似的架构，但用于提取模态特定特征的核心组件可能大相径庭。在此，我们将介绍适用于不同模态的一些最流行的组件，不涉及技术细节。

【CNN】

图像特征学习中最流行的模型是卷积神经网络（CNN），如 LeNet [45]、AlexNet [46]、GoogleNet [47]、VGGNet [48] 和 ResNet [49]。它们可以集成到多模态学习模型中，并与其他组件一起训练。然而，考虑到对充足训练数据和计算资源的需求，预训练的 CNN 可能是多模态表示学习的更好选择。

【词嵌入】

神经语言处理的基础工作包括词语表示和句子编码。一种流行的词语表示方法是词嵌入，如 word2vec [50] 或 GloVe [51]，它将词语映射到分布式向量空间，在其中可以测量词语之间的相似度。在自然语言处理任务中，一个需要考虑的常见问题是未登录词（OOV）问题，这可能会影响许多系统的性能。为解决未登录词问题，字符嵌入 [52], [53] 是表示语言输入的可行选择。例如，Kim 等人 [52] 训练了一个卷积神经网络，基于字符级嵌入生成词语表示。Bojanowski 等人 [53] 提出学习字符 n-gram 的向量表示，然后将每个词语视为字符 n-gram 的集合，通过这些向量表示的求和来获得词语的嵌入。实验 [54], [55] 表明，妥善处理未登录词问题可以显著提高自然语言处理系统的性能。

【RNN】

循环神经网络（RNN）[56] 是处理句子、视频和音频等变长序列的强大工具。由于时间 t 的当前隐藏状态的激活依赖于所有先前时间步的激活，它可以被视为到步骤 t 为止的序列摘要。然而，由于梯度消失问题 [57]，原始 RNN 难以捕捉长期依赖关系。在实践中，更好的选择是长短期记忆（LSTM）[58], [59] 网络或门控循环单元（GRU）[60] 网络，它们在捕捉长期依赖关系方面表现更好 [61], [62]。此外，双向循环神经网络（BRNN）[63] 以及 LSTM [64] 或 GRU [65] 的双向版本也广泛用于捕捉语义。除了 RNN，CNN 是另一种广泛用于从句子中提取显著 n-gram 特征的模型。实验表明，基于 CNN 的模型在句子级分类 [66] 和情感分析任务 [67] 中表现非常出色。

【OpenFace、OpenSmile 】

至于视频模态，由于每个时间步的输入是图像，其特征可以通过处理图像的技术来提取。除了深度特征，手工设计的特征在视频和音频模态中仍然被广泛使用 [10], [68]。此外，已经开发了一些工具包来提取手工特征。例如，OpenFace [69] 可用于提取面部特征，如面部地标、头部姿势和眼动。另一个工具是 OpenSmile [70]，可用于提取声学特征，包括梅尔频率倒谱系数（MFCC）、语音强度、音高及其统计量。在视频和音频的帧被编码后，上述 CNN 或 RNN 网络可用于将序列汇总为单个向量表示。

B. 联合表示

将不同类型特征集成以提升机器学习性能的策略已被研究人员长期采用。在多模态场景下，该策略的自然延伸是利用融合的异质特征。遵循这一策略，许多多模态分类或聚类任务已取得显著成果，如视频分类 [6],[21]、事件检测 [7],[8]、情感分析 [9],[10] 和视觉问答 [23]。

为弥合不同模态的异质性鸿沟，联合表示旨在将单模态表示投影到共享语义子空间，从而实现多模态特征的融合 [18]。如图 2 (a) 所示，在通过独立神经网络提取各模态特征后，需将其映射到共享子空间，从中提取跨模态共享的概念并融合为单一向量。在这里插入图片描述

多模态特征融合的最简单方式是直接拼接。但更常见的是通过独立隐藏层实现子空间映射，其中经变换的模态特定向量通过加法组合，从而融合不同模态的语义。如公式 (1) 所示，z 为共享层输出节点的激活值，v 为模态特定编码网络的输出，w 为连接模态编码层与共享层的权重，下标表示不同模态： $z=f\left(w_{1}^{T} v_{1}+w_{2}^{T} v_{2}\right)$

除了在独立隐藏层中通过加法融合（additive approach），部分文献也采用乘法方法（multiplicative method）。例如，Zadeh 等人 [10] 在情感分析任务中提出通过张量融合语言、视频和音频模态，该张量由所有模态特征向量的外积构建，以挖掘模态内或模态间的动态关系。融合张量的定义如下： $z^{m}=\left[\begin{array}{l}z^{l} \\ 1\end{array}\right] \otimes\left[\begin{array}{c}z^{v} \\ 1\end{array}\right] \otimes\left[\begin{array}{c}z^{a} \\ 1\end{array}\right]\$

其中 $z^m$ 为融合张量， $z^l、z^v、z^a$ 分别表示不同模态， $\otimes$ 为外积运算。但由于外积计算成本较高，Fukui 等人 [23] 提出使用多模态紧凑双线性池化（MCB）融合语言和图像模态。对于向量 x 和 q，该方法通过 Count Sketch 投影函数 Ψ 降低外积 $\otimes q$ 的维度，其计算过程如公式 (3) 所示，通过将外积的 Count Sketch 分解为独立 Count Sketch 的卷积，并利用快速傅里叶变换（FFT）加速计算： $\begin{aligned} \Phi & =\Psi(x \otimes q) \\ & =\Psi(x) * \Psi(q) \\ & =FFT^{-1}(FFT(\Psi(x)) \odot FFT(\Psi(q))) \end{aligned}$

尽管图 2 (a) 所示模型设计用于训练和推理阶段均有并行数据的场景，但实际应用中仍需处理部分模态数据缺失的问题，以拓展训练数据规模或降低下游任务对数据完整性的依赖。为此，常用方法是在不同训练轮次中仅使用部分模态数据，排除某一模态 [1],[72]。

有趣的是，这种处理数据缺失的训练技巧也有助于获得模态不变性（modality-invariant property），即最小化模态间的统计分布差异，使特征向量包含最少的模态特定特征。Aytar 等人 [73] 的研究表明，通过统计正则化约束中间隐藏层的激活值在跨模态间具有相似的统计分布，可增强模态不变性。该模型即使在训练数据未对齐时，也能促使不同模态在表示层自动对齐。

为使学习向量更具表达力，需融合不同模态的互补语义。然而，联合表示倾向于保留跨模态共享语义而忽略模态特定信息，因此互补性无法自动保证。解决方案是在优化目标中添加额外正则化项 [74]。例如，多模态自编码器 [1] 中使用的重建损失可视为保留模态独立性的正则化项；Jiang 等人 [21] 提出对网络权重施加迹范数正则化，以揭示多模态特征的隐藏相关性和多样性。直观而言，若一对特征高度相关，则融合它们的权重应相似，从而使两者对融合表示的贡献大致相等。迹范数正则化的目标是发现模态间关系并相应调整融合层权重，其在视频分类任务中的实验表明该正则化项有助于提升性能。

与其他框架相比，联合表示的优势在于无需显式协调模态即可便捷融合多种模态，且共享公共子空间倾向于具有模态不变性，有助于跨模态知识迁移 [1],[73]。其缺点是无法推断各模态的独立表示。

C. 协调表示

多模态学习中另一类流行方法是协调表示。如图 2 (b) 所示，协调表示框架并非在联合子空间中学习表示，而是在某些约束下为每个模态学习分离但协调的表示 [18]。由于不同模态包含的信息量不等，学习分离表示有助于保留独特且有用的模态特定特征 [31]。通常，根据约束类型，协调表示方法可分为两类：基于跨模态相似性和基于跨模态相关性。基于跨模态相似性的方法旨在学习一个公共子空间，使不同模态的向量距离可直接度量 [75]，而基于跨模态相关性的方法旨在学习共享子空间，最大化不同模态表示集的相关性 [5]。本节将综述前者，后者留待第三节 C 部分讨论。

跨模态相似性方法在相似性度量约束下学习协调表示，其学习目标是保留模态间和模态内的相似性结构，即期望相同语义或对象的跨模态相似距离尽可能小，而不同语义的距离尽可能大。

一种广泛使用的约束是跨模态排序。以视觉 - 文本嵌入为例，忽略正则化项并将匹配的视觉和文本嵌入向量记为 $\in D$ ，优化目标可表示为公式 (4) 的损失函数，其中 α 为边缘值，S 为相似性度量函数， $t^{-}$ 为与 v 不匹配的嵌入向量， $v^{-}$ 为与 t 不匹配的嵌入向量。通常， $t^{-}和v^{-}$ 称为从数据集 D 中随机选择的负样本$$，公式 (4) 称为边缘排序损失 [36]：

$\begin{aligned} \text{rankLoss} = & \sum_{v} \sum_{t^{-}} \max \left(0, \alpha - S(v, t) + S\left(v, t^{-}\right)\right) \\ & + \sum_{t} \sum_{v^{-}} \max \left(0, \alpha - S(t, v) + S\left(t, v^{-}\right)\right) \end{aligned}$

基于跨模态排序约束，已开发出多种跨模态应用。例如，Frome 等人 [34] 结合点积相似性和边缘排序损失，学习用于视觉识别的视觉 - 语义嵌入模型（DeViSE）。DeViSE 首先预训练一对深度网络，将图像及其相关标签映射为嵌入向量 v 和 t，然后利用跨模态相似性模型学习两者的共享语义嵌入空间。遵循公式 (4) 的符号，每个训练样本的损失函数定义如下：

$\text{loss}(v, t) = \sum_{t^{-}} \max \left(0, \alpha - t M v + t^{-} M v\right)$

其中 M 是用于将 v 转换到共享语义嵌入空间的线性变换矩阵，t 与M v的点积作为训练和测试的相似性度量。在公式 (5) 的约束下，模型期望匹配向量的点积相似性高于不匹配向量，从而使图像嵌入获得从语言模态迁移的丰富语义信息。Lazaridou 和 Baroni [35] 的工作也采用了这一思想，其目标是将视觉信息集成并传播到词嵌入中，实验结果表明迁移的视觉知识有助于表示抽象概念。

受 DeViSE 成功的启发，Kiros 等人 [36] 扩展该模型，学习用于图像描述的联合图像 - 句子嵌入。他们预训练 CNN 获取图像特征 v，训练 LSTM 将相关句子编码为 t，然后将两者映射到协调嵌入空间，通过类似 [34] 的跨模态相似性模型利用其间的相似性。该模型采用与 DeViSE 相同的相似性度量，但使用公式 (4) 的双向排序损失，以发现更丰富的跨模态关系。Socher 等人 [32] 的工作也采用了该模型，旨在将句子和图像映射到公共空间用于跨模态检索，他们引入基于依赖树的递归神经网络（DTRNN）编码语言模态，并认为 DTRNN 对词序等表面变化具有鲁棒性。

此外，Karpathy 和 Fei-Fei [76] 扩展该框架，学习词与图像区域之间的细粒度跨模态对齐，以生成图像的区域级描述。但该任务缺乏必要的监督信息 —— 给定图像及其相关句子，词与所描述区域的一一对应关系未知。为解决此问题，他们选择在跨模态嵌入空间中推断句子片段与图像区域的对齐。关键思想是将图像 - 句子得分表示为单个区域 - 词相似性的函数：设(v_{i})表示图像区域，(s_{t})表示句子中的词，图像 k 与句子 l 的得分定义为

$S_{k l} = \sum_{t \in g_{l}} \max _{i \in g_{k}} v_{i}^{T} s_{t}$

其中(g_{k})是图像 k 的片段集，(g_{l})是句子 l 的片段集，每个词(s_{t})对齐到唯一的最佳图像区域。此外，假设(k=l)表示匹配的图像 - 句子对，跨模态排序约束可定义为公式 (7) 的损失函数，促使对齐的图像 - 句子对得分高于未对齐对：_

$\begin{aligned} \text{rankLoss} = \sum_{k} & \sum_{l} \max \left(0, 1 - S_{k k} + S_{k l}\right) \\ & + \sum_{k} \sum_{l} \max \left(0, 1 - S_{k k} + S_{l k}\right) \end{aligned}$

Peng 等人 [31] 也采用了基于单个区域 - 词得分度量图像 - 句子相似性的策略，他们旨在通过跨模态相关学习中利用每个模态内的细粒度信息来保留模态特定特征。作者认为不同模态存在不平衡和互补关系，因此不直接在公共空间度量相似性，而是为每个模态构建独立语义空间，并同时在两个空间中度量跨模态相似性，最终将模态特定相似性得分组合为用于跨模态检索的最终度量。

除跨模态排序外，另一广泛使用的约束是欧氏距离，此类主流方法旨在最小化配对样本的距离 [33],[77],[78]。例如，Pan 等人 [33] 提出的模型旨在学习用于生成视频描述的视觉 - 语义嵌入，该模型将视觉和语言表示投影到低维嵌入空间，最小化配对样本的距离，使视觉嵌入的语义与其相关句子一致。该约束可表示为损失项：

$\text{distanceLoss} = \sum_{(v, s) \in D} \left\| T_{v} v - T_{s} s \right\|_{2}^{2}$

$其中T_{v}和T_{s}是视频 v 和句子 s 的变换矩阵，v 和 s 是数据集中的配对样本$ 。

Liong 等人 [78] 提出的跨模态匹配模型是另一个例子，其通过最小化所有层隐藏表示的差异来缩小配对数据的模态鸿沟。假设视觉模态 v 和文本模态 t 通过同构前馈神经网络编码，损失可表示为：

$\text{distanceLoss} = \sum_{l=1}^{L-1} \sum_{i=1}^{N} \left\| h_{i t}^{l} - h_{i v}^{l} \right\|_{2}^{2}$

其中 l 表示模态特定网络的层，i 表示训练数据的配对实例，h 表示隐藏表示。此外，作者还对未配对数据的距离施加了大边缘准则，旨在最小化类内距离并最大化类间距离，以利用更具判别性的信息，该准则定义为：

$\left\{ \begin{array}{l} \left\| t_{i} - v_{j} \right\|_{2}^{2} \leq \theta_{1}, \text{若} l_{t_{i}, v_{j}} = 1 \\ \left\| t_{i} - v_{j} \right\|_{2}^{2} \geq \theta_{2}, \text{若} l_{t_{i}, v_{j}} = -1 \end{array} \right.$

$其中t_{i}表示句子 i，v_{j}表示图像 j，\theta_{1}和\theta_{2}分别为小阈值和大阈值，条件l_{t_{i}, v_{j}} = 1表示t_{i}和v_{j}属于同一类，否则属于不同类$ 。

除学习模态间相似性度量外，跨模态应用的另一个关键问题是保留模态内相似性结构，常用策略是对学习特征进行分类，使其在每个模态内也具有判别性 [30],[79]，另一种方法是保留每个视图的邻域结构，公式 (10) 的约束是该类的实现之一。Wang 等人 [80] 的工作是另一个例子，他们提出通过协调表示模型学习图像 - 文本嵌入，在损失函数中结合跨视图排序约束和视图内邻域结构保留约束。设(N(v_{i}))表示图像(v_{i})的邻域，(N(t_{i}))表示句子(t_{i})的邻域，视图内邻域结构保留约束可表示为： $\left\{ \begin{array}{l} d\left(v_{i}, v_{j}\right) + m < d\left(v_{i}, v_{k}\right) \forall v_{j} \in N\left(v_{i}\right), \forall v_{k} \notin N\left(v_{i}\right) \\ d\left(t_{i}, t_{j}\right) + m < d\left(t_{i}, t_{k}\right) \forall t_{j} \in N\left(t_{i}\right), \forall t_{k} \notin N\left(t_{i}\right) \end{array} \right.$

除跨模态检索 [75],[77],[80] 和基于检索的视觉描述 [32] 等 “从一模态检索另一模态” 的应用外，协调表示的另一类应用是跨模态知识迁移，这可增强目标模态嵌入的语义描述能力。基本思想是在训练中最小化配对多模态数据在公共子空间的跨模态相似性，使嵌入捕捉共享语义，即实现知识迁移，上述多篇文献 [33]–[36] 可视为该思想的代表案例。此外，协调表示还可用于跨域迁移学习，部分减少对标记数据的需求。例如，为将知识从大规模跨媒体数据集迁移到小规模数据集，Huang 等人 [37],[38] 提出训练一对网络（每个域一个），并通过最小化最大均值差异（MMD）[81] 来协调它们。

与其他框架相比，协调表示倾向于在每个模态中保留独特且有用的模态特定特征 [31]。由于不同模态在分离网络中编码，其优势之一是每个模态可单独推断，这一特性也有利于跨模态或跨域知识迁移。该框架的缺点是，多数情况下难以学习两种以上模态的表示。

D. 编码器 - 解码器

近年来，编码器 - 解码器框架已广泛应用于将一种模态映射到另一种模态的多模态翻译任务中，如图像描述 [13],[39]、视频描述 [14],[41] 和图像合成 [15],[82]。典型地，如图 2 © 所示，该框架主要由编码器和解码器两部分组成：编码器将源模态映射为潜在向量v，解码器基于向量v生成目标模态的新样本。

尽管大多数编码器 - 解码器模型仅包含单个编码器和解码器，但部分变体也可由多个编码器或解码器组成。例如，Mor 等人 [83] 提出的模型通过单个编码器和多个解码器实现乐器间的音乐转换：共享编码器负责提取与领域无关的音乐语义，每个解码器则在目标领域重现音乐。包含两个编码器的例子是 Huang 等人 [84] 的图像到图像翻译模型，其由内容编码器和风格编码器组成，分别承担不同职责。

以视觉描述为例 [41]，编码器 - 解码器模型的广义学习目标可表示为：

$\theta^{*}=\underset{\theta}{argmax} \sum_{(V, S)} \log p(S | V ; \theta)$

其最大化给定视觉内容V和模型参数(\theta)时句子S的对数似然。进一步假设序列中每个词按顺序生成，句子的对数概率可表示为： $\log p(S | V ; \theta)=\sum_{t=0}^{N} \log p\left(S_{w_{t}} | V, S_{w_{1}}, \ldots, S_{w_{t-1}}\right)$

其中 $S_{w_i}$ 表示句子中第i个词，N为总词数。

表面上，编码器 - 解码器模型学习的潜在向量似乎仅与源模态相关，但实际上它与源模态和目标模态均密切相关。由于误差校正信号从解码器流向编码器，训练过程中编码器受解码器引导，生成的表示倾向于捕捉两模态的共享语义。

为更有效地捕捉共享语义，一种常用方案是通过正则化项保持模态间的语义一致性，这依赖于编码器与解码器的协调。正确理解源模态语义和恰当地生成目标模态新样本同样重要。以图像描述 [85] 为例，解码器生成的描述可能涵盖图像的多个视觉层面（物体、颜色 / 尺寸等属性、背景、场景和空间关系），因此编码器需正确检测和编码必要信息，解码器则负责推理高层语义并生成语法规范的句子。

显式考虑模态间语义一致性的例子是 Gao 等人 [42] 的视频转句子模型：一方面最大化公式 (13) 的似然以正确生成句子，另一方面最小化公共子空间中的表示差异以保证语义相关。假设v为视觉特征，s为句子嵌入，R为将s线性投影到v所在子空间的矩阵，一致性约束可表示为公式 (14) 的损失项。另一个例子是 Reed 等人 [15] 通过生成对抗网络（GAN）[82] 将字符转换为像素的工作，其模型中同一类别内源编码与目标编码的相似性被最大化，以保持两模态语义一致。由于图像合成模型多采用 GAN 实现，该任务的更多案例将留待第三节 D 部分（生成对抗学习）讨论。 $\operatorname{loss}=\|v-R v\|_{F}^{2} \quad(14)$

当模态间语义一致性被显式建模时，该框架可用于学习跨模态语义嵌入。例如，Gu 等人 [86] 基于编码器 - 解码器框架提出学习用于检索的跨模态嵌入，其模型通过独立的编码器 - 解码器网络将每个模态转换为另一模态，并期望生成的图像或句子与源样本相似。该模型中，生成句子与参考句子的相似度通过 BLEU [87] 等标准指标度量，图像间的相似度则通过判别器（区分图像是否来自生成器）度量。

早期研究 [88],[89] 中，视觉模态的表示通常是固定的视觉语义列表（如编码器显式检测的物体及其关系），解码器基于 n-gram 语言模型或句子模板生成句子，这种方式简化了问题，但难以处理大词汇量或复杂句子结构 [41]。

近年来，更常用的源模态表示方法是将关键信息编码为单个向量表示 [14]，相比传统方法，其更便于神经网络编码信息和生成样本。然而，以单个向量为桥梁在模态间转换语义对编码器和解码器均具挑战性：编码器面临的问题是从源模态提炼的高层向量表示可能丢失对生成目标模态有用的信息 [13]；若解码器使用 RNN 生成长序列，则原始表示向量中的信息在时间步传递中会衰减。

注意力机制已成为解决上述问题的常用方案，其允许利用 RNN 网络中按时间步分布的中间表示 [90] 或 CNN 网络中的局部区域表示 [91]，而非仅使用编码器最后一步的单个向量。对编码器而言，该机制减轻了将完整信息集成到单个向量的要求，为编码器设计提供了灵活性；对解码器而言，其赋予模型在预测过程中选择性、动态地聚焦于场景部分区域的能力。由于注意力机制具备选择关键特征的能力，已成功应用于多种神经网络，并在诸多任务中展现提升性能的独特优势 [90]–[92]。鉴于其在多模态表示学习中的重要性，我们将在第三节 E 部分详细探讨其影响。

深度强化学习（DRL）是解决多模态序列编解码问题的另一有效方案，其中序列的编码或解码可视为序列决策问题。例如，Chen 等人 [93] 通过深度强化学习训练特征选择模块，用于决定编码时是否包含时间步t的输入，从而保留关键特征并排除噪声；解码阶段深度强化学习的典型应用是图像描述 [94],[95]。

与其他框架相比，编码器 - 解码器框架的优势在于能基于源模态表示生成目标模态的新样本；缺点是每个编码器 - 解码器仅能编码一种模态，且生成合理目标样本的技术仍在发展中，需考虑生成器设计的复杂性。

典型模型

在本节中，我们将总结深度多模态表示学习中的一些典型模型。这些模型涵盖了传统模型（包括概率图模型、多模态自编码器和深度典型相关分析）以及新兴技术（包括生成对抗网络和注意力机制）。此处描述的典型模型可归属于上述一个或多个框架，或可与这些框架集成。

A. 概率图模型

在深度表示学习领域，概率图模型包括深度信念网络（DBN）[97] 和深度玻尔兹曼机（DBM）[98]。尽管两者均通过逐层堆叠受限玻尔兹曼机（RBM）[99] 进行训练，但其结构存在差异：前者是由有向信念网络和 RBM 层组成的部分有向模型，后者则是完全无向模型。

Srivastava 和 Salakhutdinov [72] 提出的多模态 DBN 是概率图模型的典型案例。该模型在模态特定 DBN 的顶部添加共享 RBM 隐藏层，以学习跨模态的联合表示。同一团队 [96] 提出的多模态深度玻尔兹曼机则以 DBM 为基本单元处理各模态数据。作为完全无向模型，其隐藏单元的状态在跨模态间相互影响，因此模态融合过程分布于所有层的隐藏单元中。

多模态概率图模型的学习目标是最大化模态间的联合分布。以图 3 所示的多模态 DBM 为例，假设每个模态通过含两个隐藏层的 DBM 编码，联合分布可表示为：

$\left(v_{m}, v_{t}, \theta\right)= \sum_{h_{m}^{(2)}, h_{t}^{(2)}, h^{(3)}} P\left(h_{m}^{(2)}, h_{t}^{(2)}, h^{(3)} \right) \\ \left(\sum_{h_{m}^{(1)}} P\left(v_{m}, h_{m}^{(1)}, h_{m}^{(2)}\right)\right) \\ \left(\sum_{h_{t}^{(1)}} P\left(v_{t}, h_{t}^{(1)}, h_{t}^{(2)}\right)\right)$

$其中v_m、v_t分别表示图像和文本输入，\theta表示参数，h_m = \{h_m^{(1)}, h_m^{(2)}\}、h_t = \{h_t^{(1)}, h_t^{(2)}\}为各模态的隐藏层，h^{(3)}为共享表示层$ 。

不同于通过共享表示层连接不同模态的策略，Feng 等人 [28] 倾向于逐层最大化模态间的对应关系：在每个等价隐藏层，通过相关损失函数连接来自不同模态的两个 RBM，从而捕捉跨模态检索所需的核心相关性。

通过在统一潜在空间中融合模态，概率图模型可用于学习核心跨模态相关性。基于多模态深度信念网络，已涌现出视听情感识别 [25]、视听语音识别 [27] 和信息可信度评估 [100] 等应用；基于多模态深度玻尔兹曼机，也已提出人体姿态估计 [101] 和视频情感预测 [26] 等解决方案。

概率图模型的优势之一在于其可采用无监督方式训练，从而能够利用未标注数据。另一个优势源于其生成特性，这使得在已知其他模态的条件下生成缺失模态成为可能[96]。然而，由于近似推理算法成本高昂，多模态深度玻尔兹曼机的一个关键缺点是其计算成本相当高[102]。

B. 多模态自编码器

自编码器因其无监督学习表示的能力而广受欢迎，无需标签 [103]。其基本结构包括编码器和解码器两部分：编码器将输入转换为压缩的隐藏向量（潜在表示），解码器则基于该潜在表示重建输入，以最小化重建损失。

受降噪自编码器 [104] 启发，Ngiam 等人 [1] 将自编码器扩展到多模态场景，训练了一个双峰深度自编码器来学习音频和视频模态的共享表示。如图 4 所示，该模型在公共潜在表示层结合两个独立的自编码器，保持编码器和解码器独立。为稳健捕捉跨模态相关性，即使某一模态缺失，也能基于共享表示重建另一模态。设 $x_i, y_i)$ 为输入对， $(\hat{x}_i, \hat{y}_i)$ 为重建输出，模型的基本优化目标是最小化两模态的重建损失： $\sum_{i=1}^{N} \left( \left\| x_i - \hat{x}_i \right\|_2^2 + \left\| y_i - \hat{y}_i \right\|_2^2 \right)$
在这里插入图片描述

与 Ngiam 的工作类似，Silberer 和 Lapata [105] 提出了一种变体，从文本和视觉输入中学习语义表示。除重建损失外，还同时优化分类损失，以确保学习的潜在表示能区分不同对象。Wang 等人 [106] 提出的另一种变体则对权重施加正交正则化，以减少学习表示中的冗余。

除在公共子空间学习表示外，Feng 等人 [11] 提出为每个模态学习一对独立但相关的表示：每个模态通过独立自编码器编码，除两模态的重建损失外，模型还最小化模态间的相似性损失以捕捉相关性。作者指出，平衡两种损失对提升性能至关重要。Wang 等人 [107] 也采用了这一思路，为不同模态的重建损失分配独立权重。

除上述模型外，自编码器还用于提取中间特征，这类模型通常采用两阶段学习策略：第一步基于无监督学习，通过独立自编码器提取模态特定特征；第二步通过特定的监督学习过程捕捉跨模态相关性。例如，Liu 等人 [6] 基于自编码器分别提取模态特定特征，然后通过监督学习在神经网络中融合；Hong 等人 [108] 则基于自编码器学习的特征，构建从一模态到另一模态的映射。

自编码器的首要优势是学习的潜在表示能保留输入数据的主要语义信息：从生成模型角度看，由于可从潜在表示重建输入，说明生成输入的关键因素已被编码。第二个优势是可无监督训练，无需标签。然而，由于该模型主要为通用目的设计，若要提升其在特定任务中的性能，需引入额外约束或监督学习过程。

C. 深度典型相关分析

典型相关分析（CCA）[109] 是一种最初用于度量两组数据间相关性的方法。在多模态表示学习场景中，给定两组数据 $x[x_{1}, x_{2}, \cdots, x_{n}] \in R^{n ×d_{x}}和y[y_{1}, y_{2}, \cdots, y_{n}] \in R^{n ×d_{y}}（其中每对(x_{i}, y_{i})为包含两种模态的数据样本）$ ，CCA 旨在寻找两组基向量 $w_{x}和w_{y}$ ，将多模态数据映射到共享的d维子空间，使投影表示 $P_{x}=w_{x}^{T}x和P_{y}=w_{y}^{T}y$ 的相关性最大化 [5],[110]。当每组x和y的均值为零时，目标函数可表示为公式 (17)，其中 $\rho$ 为相关系数，C为协方差矩阵： $\begin{aligned} \rho & = \max _{w_{x}, w_{y}} \text{corr}\left(w_{x}^{T} x, w_{y}^{T} y\right) \\ & = \max _{w_{x}, w_{y}} \frac{w_{x}^{T} C_{x y} w_{y}}{\sqrt{\left(w_{x}^{T} C_{x x} w_{x}\right)\left(w_{y}^{T} C_{y y} w_{y}\right)}} \end{aligned}$ 由于 $\rho对w_{x}或w_{y}$ 的尺度不变，优化目标可进一步转化为带约束的优化问题： $\max _{w_{x}, w_{y}} w_{x}^{T} C_{x y} w_{y} \quad \text{s.t.} \quad w_{x}^{T} C_{x x} w_{x}=1, \quad w_{y}^{T} C_{y y} w_{y}=1 \quad (18)$

基础 CCA 局限于建模线性关系，忽略不同数据视图的概率分布特性。为此，研究者提出了多种扩展方法。非线性扩展之一是核典型相关分析（KCCA）[111]，其在应用 CCA 前将数据转换到高维希尔伯特空间。但 KCCA 存在可扩展性差的问题 [112]，其闭式解需要高时间复杂度和内存消耗的计算。替代方案包括尼斯特伦方法 [113]、不完全乔列斯基分解 [114]、部分格拉姆 - 施密特正交化 [115] 和块增量奇异值分解 [116] 等近似方法，用于加速模型计算。KCCA 的另一缺点是效率低，因为转换未见过的实例时需要访问所有训练集 [117]。

CCA 的新扩展是深度典型相关分析（DCCA）[117]，旨在为不同模态学习一对更复杂的非线性变换。该模型的基本结构如图 2 (b) 所示，每个模态由深度神经网络编码，然后在公共子空间中最大化模态间的典型相关性。设 $H_{x}=f_{x}(x, \theta_{x})和H_{y}=f_{y}(y, \theta_{y})$ 为通过神经网络实现的非线性变换函数（将x和y映射到共享子空间），优化目标是最大化(H_{x})和(H_{y})的跨模态相关性： $\max \text{corr}\left(H_{x}, H_{y}\right) = \max _{\theta_{x}, \theta_{y}} \text{corr}\left(f_{x}(x, \theta_{x}), f_{y}(y, \theta_{y})\right) \quad (19)$ 与 KCCA 中使用的特定核函数相比，神经网络学习的非线性函数更具通用性，因此 DCCA 在适应性和灵活性上表现更优。同时，作为参数化方法，DCCA 对数据规模的扩展性更好，且测试时无需参考训练数据。

通常，最大化相关性的目标专注于学习共享语义信息，但容易忽略模态特定知识。为解决此问题，需考虑额外的正则化项。例如，Wang 等人 [118] 提出了 DCCA 的变体 —— 深度典型相关自编码器（DCCAE），除了最大化视图间的相关性，还通过自编码器架构最小化每个视图的重建误差。额外自编码器的作用可解释为正则化项，旨在提高视图间互信息的下界。

目前，大多数基于 DCCA 的应用可归纳为给定一模态预测另一模态，但 DCCA 也可用于生成新样本。基于 CCA 的概率解释 [119]，Wang 等人 [120] 提出了扩展模型 —— 深度变分典型相关分析（VCCA）。作为生成模型，VCCA 使我们能够获取每个视图的未见样本。CCA 的基本概率解释假设观察变量x和y的两个视图根据条件概率(p(x|z))和(p(y|z))生成，其中z是两个视图共享的潜在变量。VCCA 通过深度神经网络实现，不假设x、y和z之间的线性关系，而是旨在建模它们之间的非线性关系，从而具有更强的表示能力。具体而言，VCCA 的优化目标是似然的变分下界，可表示为数据样本的和，因此可通过随机梯度下降法方便地训练模型。

DCCA 的一个挑战是其可扩展性相对较差。直接继承自基础 CCA，标准相关函数将所有训练样本耦合在一起，无法表示为所有数据样本的和。因此，Andrew 等人 [117] 选择基于批量的算法（L-BFGS）来优化网络，但该方法需要计算整个数据样本的梯度，占用高内存，不适用于大规模数据集。为改善 DCCA 的可扩展性，研究者已做出一些努力。Wang 等人 [121],[122] 采用带大迷你批量的随机优化方法来近似梯度，从而缓解了内存消耗问题。

最近，Chang 等人 [123] 提出了一种更高效的优化解决方案 —— 软典型相关分析（Soft CCA），其计算复杂度更低。与传统 CCA 约束训练批次的相关矩阵为单位矩阵不同，Soft CCA 将该约束松弛为公式 (20) 的损失函数，最小化约束矩阵中非对角元素的(L_1)损失。通过将 CCA 目标表示为损失函数，Soft CCA 避免了矩阵求逆和奇异值分解（SVD）等计算昂贵的操作，因此在计算上更高效且可扩展性更强： $L_{SDL} = \sum_{i=1}^{k} \sum_{j \neq i}^{k} \left| \phi_{i j} \right|$

与协调框架中的跨模态相似性方法相比，DCCA 的优势之一是可无监督训练。由于这些优势，DCCA 已广泛应用于各种多视图和多模态学习任务，包括多语言环境下的词嵌入 [124],[125]、声学特征表示 [121]、图像与文本匹配 [29]、音乐检索 [126] 和语音识别 [127],[128]。相反，DCCA 的缺点是计算复杂度较高，可能限制其在数据规模上的可扩展性。

D. 生成对抗网络

生成对抗网络（GAN）是一种新兴的深度学习技术。作为无监督学习方法，其可在不依赖标签的情况下学习数据表示，显著降低对人工标注的依赖；同时作为生成方法，能根据训练数据的分布生成高质量新样本。自 2014 年 Goodfellow 等人 [82] 提出以来，生成对抗学习策略已成功应用于各类单模态任务，最著名的应用包括图像合成 [82],[129],[130]（根据从正态分布采样的随机输入生成高质量图像）、图像到图像翻译 [131] 和图像超分辨率 [132] 等。最近，该策略进一步扩展到多模态场景，如文本到图像合成 [15],[44]、视觉描述 [40],[43]、跨模态检索 [30]、多模态特征融合 [4] 和多模态叙事 [133]。本节将简要介绍 GAN 的基本概念，并探讨其在多模态表示学习中的作用。

通常，生成对抗网络由两个相互博弈的组件构成：作为生成器的生成网络 G 和作为判别器的判别网络 D。生成器 G 负责根据学习到的数据分布生成新样本，判别器 D 则旨在区分 G 生成的实例与训练集采样的样本，两者通常均由深度神经网络实现。

生成器 G 可视为将潜在空间向量 z 映射到数据空间样本的函数，记为 $\theta_{g}) \to x$ ，其中 $\theta_{g}$ 为 G 的参数；判别器 D 可记为 $\theta_{d}) \to p$ ，将矩阵或向量映射为标量概率值（预测样本是否来自训练数据），其 $中\theta_{d}$ 为 D 的参数， $\in (0, 1)$ 。尽管 G 从分布 $P_{g}(x)$ 生成新样本，但其目标是拟合真实分布 $P_{data}(x)$ 。当 $P_{g}$ 足够接近 $P_{data}$ 时，判别器 D 将无法区分，预测准确率降低。理论上，Goodfellow 等人 [82] 证明，当 $P_{g} = P_{data}$ 时可达全局最优，此时 D 无法区分两者，所有输入的预测概率 p 均为 0.5。 $\min_{G} \max_{D} V(G, D) \quad (21)$

$\mathbb{E}_{x \sim p_{data}(x)} \left[ \log D(x) \right] \\ + \mathbb{E}_{z \sim p_{z}(z)} \left[ 1 - \log D(G(z)) \right]$

GAN 的优化目标是公式 (21) 的解，其中函数 $V (G, D)$ 为公式 (22) $定义的判别器 D 的交叉熵损失。训练过程中，G 和 D 以迭代方式更新：更新一方时固定另一方参数。第一步，给定生成器或训练集的样本，训练判别器区分两者（通过最大化函数 V 实现）；第二步，训练生成器生成足以迷惑判别器的样本（通过最小化函数 V 实现）。在这种对抗过程中，两个子网络交替进化。

与经典表示学习方法相比，GAN 的显著差异在于数据表示的学习过程并非直接进行，而是隐含的。不同于自编码器等传统无监督表示方法（直接学习从数据到潜在变量的映射），GAN 学习从潜在变量到数据样本的反向映射 —— 生成器将随机向量映射为特定样本，该随机信号即对应生成数据的表示。当(P_{g})良好拟合(P_{data})时，该随机信号即为真实训练数据的有效表示。

然而，尽管 GAN 在图像合成中表现优异，基础 GAN 的缺点之一是潜在表示难以解释，因为随机表示与有意义语义无关。为提高潜在表示的可解释性，Chen 等人 [134] 提出语义有意义的 InfoGAN，将随机噪声向量分为z和(c = (c_{1}, \dots, c_{L}))，通过最大化潜在变量c与生成器分布(G(z, c))的互信息，促使不同(c_{i})表示解耦的显著属性。因此，修改(c_{i})的值将改变相关数据属性（如形状或风格）。

基础 GAN 的另一缺点是缺乏从数据到潜在空间的直接映射，而这对检索和分类等传统任务的表示学习至关重要。为解决此问题，研究者提出了配备额外推理网络的技术 [135],[136]，典型模型包括对抗学习推理模型（ALI）[137] 和双向生成对抗网络（BiGANs）[138]，其生成器包含一对并行网络：将潜在向量z映射为新样本(\hat{x})的解码器，以及从x推断z的编码器。解码器和编码器联合优化，使元组((\hat{x}, z))和((x, \hat{z}))足够相似以欺骗判别器。

最近，生成对抗学习策略已扩展到多模态表示场景，主要包括跨模态翻译和检索。尽管两者中对抗学习的核心作用均为缩小模态间的分布差异，但其侧重点略有不同：在跨模态翻译中，GAN 帮助编码器捕捉模态间的共享语义概念；在跨模态检索中，给定配对多模态输入，GAN 帮助耦合编码器在公共子空间中生成足够相似的配对表示。

在跨模态翻译领域，以文本到图像合成为例，关键挑战之一是将文本描述中的视觉概念（如物体类别、颜色和位置）正确编码为向量，以便根据中间表示生成另一模态。为解决此问题，Reed 等人 [15] 基于条件生成对抗网络（CGAN）[139] 提出端到端架构训练文本编码器。如图 6 所示，该模型将作为条件的文本输入编码为向量T，T与噪声向量Z共同转换为图像，判别器判断T与图像编码V是否兼容。为获得文本描述的视觉判别向量表示，优化目标为公式 (23) 定义的结构化损失： $\frac{1}{N} \sum_{n=1}^{N} \Delta\left(y_{n}, f_{v}\left(v_{n}\right)\right) + \Delta\left(y_{n}, f_{t}\left(t_{n}\right)\right)$ 其中 ${(v_{n}, t_{n}, y_{n})\}$ 为训练集， $\Delta为 0-1 损失，v_{n}为图像，t_{n}为文本描述，y_{n}为类别标签，分类器f_{v}和f_{t}$ 定义如下： $f_{v}(v) = \underset{y \in \mathcal{Y}}{\arg\max} \mathbb{E}_{t \sim \mathcal{T}(y)}\left[ \phi(v)^{T} \varphi(t) \right]$

$f_{t}(t) = \underset{y \in \mathcal{Y}}{\arg\max} \mathbb{E}_{v \sim \mathcal{V}(y)}\left[ \phi(v)^{T} \varphi(t) \right]$

其中 $\varphi$ 为文本编码器， $\phi$ 为图像编码器， $\mathcal{T}(y)$ 为类别y的文本集， $\mathcal{V}(y)$ 为图像集。通过优化损失函数 (23)，G 与 D 的对抗过程不仅引导生成器使图像与文本描述对齐，还帮助文本编码器捕捉模态间的共享视觉语义概念。

为提升文本到图像合成的性能，研究者提出了若干具有图 6 基本结构的模型 [44],[141],[142]，通过不同方式改进文本编码器以更明确地编码文本描述中的视觉信息。例如，Zhang 等人 [44] 采用草图细化过程生成逼真图像：基于文本描述，模型首先绘制低分辨率草图，然后在细化阶段生成高分辨率图像；为提高合成图像的多样性，引入条件增强技术，促使文本编码在潜在条件空间中平滑。Reed 等人 [141] 将边界框或关键点提供的物体位置信息与文本描述结合，指定在何处绘制内容。Johnson 等人 [142] 则使用场景图作为翻译网络的输入，设计图卷积网络将场景图的节点和边信息编码为表示向量 —— 与非结构化文本相比，显式描述物体及其关系的结构化场景图有助于生成复杂图像。

在跨模态检索领域，GAN 的主要作用是帮助耦合编码器在公共子空间中生成足够相似的配对表示，核心思想是将配对输入映射到公共子空间，使判别器无法区分特征来自哪个模态。根据判别器的输入内容，跨模态对抗模型的典型结构可归纳为两类：第一类如图 7 (a) 所示，模态判别器的输入是编码器生成的特征；第二类如图 7 (b) 所示，输入是数据样本。

如图 7 (a) 所示，第一类跨模态对抗模型由两个生成器和一个判别器组成，每个生成器是将文本或图像映射到公共潜在子空间的特征编码器，目标是缩小不同模态的分布差距，使不同模态中语义相似的数据在公共空间中映射到相邻点。训练时，生成器试图产生模态不变表示，而模态分类器（即 GAN 的判别器）用于区分特征来源。当判别器无法区分特征向量的来源时，不同模态的分布差距将相应最小化。

基于第一类学习策略，研究者提出了若干用于跨模态检索的模型 [4],[30],[143]，其中对抗过程用于迫使不同模态的投影表示分布更接近，差异主要在于如何同时保留模态内和模态间的相似性。例如，Wang 等人 [30] 提出学习具有模态不变性和判别性的表示：除模态分类器外，模型还集成标签预测器以保持学习特征在每个模态内的判别性，并对标签预测器添加三元组边缘排序约束以保留模态间相似性。

Peng 等人 [4] 提出学习判别性公共表示以弥合异质性鸿沟，其生成器由带权重共享约束的跨模态自编码器构成，判别器包含两类判别模块：模态内和模态间判别器。生成器试图将多模态输入投影到具有两种特性的公共子空间（保持每个模态内的语义一致性和模态间的分布一致性），而判别器试图检测不一致性 —— 模态内判别器旨在区分生成的重建特征与原始输入，模态间判别器则试图判断特征来自哪个模态。

Xu 等人 [143] 提出的模型旨在学习在公共子空间中具有最大相关性且统计不可区分的跨模态表示，将问题分解为三个损失项：用于最小化不同模态分布统计差异的对抗损失、确保每个模态内表示具有判别性的特征判别损失、以及负责保持跨模态相似性结构的跨模态相关损失。其中，跨模态相关损失通过不同模态样本对的平方距离度量：若样本对来自同一类别，则距离最小化；否则最大化。

如图 7 (b) 所示，第二类跨模态对抗模型包含编码器 - 解码器网络，将一模态转换为另一模态。例如，给定输入对((v, t))，编码器将t映射为表示向量，解码器（作为生成器）将该向量映射为重建样本(\hat{v})，期望(\hat{v})与v足够相似，使重建对((\hat{v}, t))被判别器视为真实对。当学习的表示能可靠转换为另一模态时，即认为保留了跨模态不变性。Gu 等人 [86] 提出的模型是该类的典型案例，其在模型中集成生成对抗网络以训练文本编码器。

Zhang 等人 [144] 采用 GAN 以无监督方式建模跨模态哈希，除保留公共哈希空间中的模态内和模态间相关性外，还期望保留跨模态的流形结构属性：给定一模态的样本，生成器训练为从另一模态选择同一流形中的样本，判别器判断生成的样本对是否属于同一流形结构，其中哈希码对生成器和判别器起关键作用 —— 生成器基于哈希码选择样本，判别器基于哈希码判断模态间的相关性，对抗学习过程用于增强公共哈希空间中跨模态流形结构的保留特性。

Wu 等人 [145] 将 CycleGAN [146] 扩展为在无配对训练样本条件下学习跨模态哈希函数。CycleGAN 可视为第二类的特例，包含一对编码器 - 解码器，分别将一模态转换为另一模态：给定输入v，模型将其转换为t，再反向转换为(\hat{v})，期望(v \approx \hat{v})；同理，输入t时，重建的(\hat{t})应与t大致相等。基于两模态的循环一致性约束，模型可在无配对训练样本时训练。

GAN 的优势之一是可通过无监督学习训练，显著降低对人工标注的依赖；另一优势是能根据训练数据分布生成高质量新样本。然而，尽管理论上存在唯一全局最优解，训练 GAN 系统仍具挑战性 —— 可能面临训练不稳定、“模式崩溃” 或无法收敛等问题 [147]。尽管已提出若干改进方法 [147]–[150]，但稳定 GAN 训练的方法仍是开放性问题。

E. 注意力机制

注意力机制允许模型聚焦于特征图的特定区域或特征序列的特定时间步。通过注意力机制，不仅可以提升模型性能，还能增强特征表示的可解释性。该机制模仿了人类提取最具判别性信息用于识别的能力 —— 注意力决策过程并非同时使用所有信息，而是有选择地专注于场景中所需的部分 [151]。近年来，这种方法已在诸多应用中展现出独特优势，例如视觉分类 [152]-[154]、神经机器翻译 [155],[156]、语音识别 [92]、图像描述生成 [13],[91]、视频描述 [42],[90]、视觉问答 [24],[157]、跨模态检索 [31],[158] 和情感分析 [22] 等。

根据选择特征时是否使用 “键”，注意力机制可分为两类：基于键的注意力和无键注意力。基于键的注意力通过键来搜索显著的局部特征。以图像描述生成 [13] 为例，其典型结构如图 8 所示：CNN 网络将图像编码为特征集({a_{i}})，RNN 网络将输入解码为隐藏状态({h})。在时间步 t，输出(y_t)基于(h_t)和(c_t)预测，其中(c_t)是从({a_i})中提取的显著特征。在提取(c_t)的过程中，解码器中的当前状态(h_t)作为 “键”，编码器状态({a})作为搜索源 [159]。注意力机制的计算方法 [13],[156] 可由公式 (26) 至 (28) 定义，键与源之间的兼容性分数可通过公式 (29) 列出的三种函数之一计算：

$e_{t i}=score\left(a_{i}, h_{t}\right) \quad(26)\alpha_{t i}=\frac{\exp \left(e_{t i}\right)}{\sum_{i=1}^{L} \exp \left(e_{t i}\right)} \quad(27) c_{t}=\sum_{i=1}^{L} \alpha_{t i} a_{i} \quad(28)score\left(a_{i}, h_{t}\right)=\left\{\begin{array}{l}h_{t}^{\mathrm{T}} a_{i} \\ h_{t}^{\mathrm{T}} W_{a} a_{i} \\ v_{a}^{\mathrm{T}} \tanh \left(W_{a}\left[h_{t} ; a_{i}\right]\right)\end{array}\right.$

基于键的注意力在视觉描述任务中广泛应用 [13],[90],[160]，常与编码器 - 解码器网络结合。它为评估单模态或跨模态特征的重要性提供了方法：一方面，注意力机制可用于筛选单模态内最显著的特征；另一方面，在融合多模态时，可用于平衡不同模态的贡献。

为识别和描述视觉模态中的对象，一组可能编码不同对象的局部区域特征，比单个特征向量更有帮助。通过动态选择图像中的显著区域或视频序列的时间步，可同时提升系统性能和抗噪能力。例如，徐等人 [13] 采用注意力机制检测图像中的显著对象，并在解码器中将其与文本特征融合以生成描述。此时，在时间步 t 生成的当前文本引导下，注意力模块会搜索适合预测下一个词的局部区域。

为更精准定位局部特征，研究者提出了多种注意力模型。杨等人 [157] 提出堆叠注意力网络用于搜索图像区域，认为多步搜索或推理有助于定位细粒度区域：模型首先以语言特征为键，通过注意力定位图像中的一个或多个局部区域，然后将关注的视觉和语言特征合并为向量，该向量再作为下一次迭代的键。经过 K 步后，不仅能定位合适的局部区域，还能融合特征。朱等人 [161] 提出结构化注意力模型以捕捉图像区域间的语义结构，实验表明该模型可推断空间关系并关注正确区域。陈等人 [162] 提出在 CNN 网络中结合空间和通道注意力，同时过滤 CNN 特征的局部区域和通道。

目前，由于缺乏显式的注意力标注，注意力模型多采用间接线索训练。甘等人 [163] 则采用直接监督训练注意力模块：从多个数据集收集视觉片段与词汇的链接信息，再利用该信息显式引导注意力模块训练，实验表明其性能得到提升。

在多模态特征融合中，平衡不同模态的贡献是关键问题。与拼接或固定权重融合方法相比，基于注意力的方法可自适应平衡不同模态的贡献。多项研究 [90],[91],[164] 表明，基于上下文动态为模态特定特征分配权重，有助于提升应用性能。

堀等人 [90] 提出基于注意力的多模态融合方法用于视频描述，除关注特定区域和时间步外，该方法强调关注模态特定信息：提取模态特定特征后，注意力模块基于上下文生成合适权重以融合不同模态的特征。在跨模态检索任务中，陈等人 [164] 采用类似策略，根据搜索键自适应融合模态并过滤各模态内的无关信息。

陆等人 [91] 引入自适应注意力框架，用于在生成描述时决定是否包含视觉特征：他们认为诸如 “the” 等词汇与任何视觉对象无关，此时无需视觉特征，解码器仅依赖语言特征预测词汇。

无键注意力主要用于分类或回归任务。在此类场景中，由于结果单步生成，难以定义键来引导注意力模块，因此注意力直接应用于局部特征而不涉及键。其计算函数流程如下： (e_{i}=score\left(a_{i}\right) \quad(30)) (\alpha_{i}=\frac{\exp \left(e_{i}\right)}{\sum_{i=1}^{L} \exp \left(e_{i}\right)} \quad(31)) (c_{i}=\sum_{i=1}^{L} \alpha_{i} a_{i} \quad(32)) (score\left(a_{i}\right)=\left{\begin{array}{l}v^{\mathrm{T}} a_{i} \ v^{\mathrm{T}} \tanh \left(W a_{i}\right)\end{array}\right.)

由于无键注意力机制从原始输入中筛选突出线索的特性，它适用于存在语义冲突、重复和噪声等问题的多模态特征融合任务。通过该机制，可评估模态内部或之间的关系（互补或补充），从不同模态中选择互补特征并融合为单一表示，从而缓解语义歧义。

注意力机制在多模态融合中的优势已在诸多应用中得到验证。例如，龙等人 [165] 比较了四种多模态融合方法，证明基于注意力的方法在视频分类问题中最有效：他们在早期融合、中间层融合、基于注意力的融合和晚期融合（对应不同融合点）的不同设置下进行实验，结果表明基于注意力的融合方法在各种数据集上均表现稳健。其他研究 [166],[167] 也证实了基于注意力的方法在多模态特征融合中的前景。

多模态特征融合的一个特殊问题是融合来自可变长度序列（如视频、音频、句子或一组局部特征）的特征。简单的解决方案是通过注意力机制独立融合每个序列：将每个序列合并为固定长度的加权表示后，再拼接或融合为单个向量。这种方法有利于融合长度不同的序列（多模态数据集中常见），但未显式考虑模态间的交互，可能忽略细粒度的跨模态关系。

建模注意力模块间交互的一种解决方案是构建共享上下文，作为模态特定注意力模块计算的额外条件。例如，陆等人 [24] 通过计算视觉和文本特征的相似度构建全局上下文；南等人 [158] 采用迭代策略更新共享上下文和模态特定注意力分布：首先基于注意力模块汇总模态特定特征，然后将其融合为用于下一次迭代的上下文。

近年来，一种名为多重注意力机制的新型学习策略被提出，该策略利用多个注意力模块从同一输入数据中提取不同类型的特征。通常，每种特征位于不同子空间并反映不同语义，因此多重注意力机制有助于发现不同的跨模态动态。例如，扎德等人 [22] 提出利用多重注意力机制发现模态间的多样化交互：在每个时间步 t，将所有模态的隐藏状态(h_{t}^{m})拼接为向量(h_t)，然后对(h_t)应用多重注意力，提取 K 个反映不同跨模态关系的加权向量，最后将这 K 个向量融合为表示 t 时刻跨模态共享隐藏状态的单个向量。

另一个例子是周等人 [167] 的模型，其基于多重注意力机制融合用户行为的异构特征：用户行为类型可视为不同模态（不同行为类型具有独特属性），作者认为用户行为的语义受上下文影响，因此行为的语义强度也依赖于上下文。模型首先将所有行为类型投影为拼接向量 S（作为全局特征和注意力模块中的上下文），然后将 S 投影到 K 个潜在语义子空间以表示不同语义，最后通过注意力模块融合 K 个子空间。

注意力机制的优势之一是能够选择显著且具判别性的局部特征，这不仅能提升多模态表示的性能，还能增强可解释性。此外，通过筛选突出线索，该技术还可帮助解决噪声问题，并将互补语义融合到多模态表示中。

在这里插入图片描述