一、什么是模态

        在人工智能领域,模态(Modality)、跨模态(Cross-modality)和多模态(Multimodality)是描述数据类型和数据处理方式的重要概念。模态指的是信息的表现形式或感官通道。在日常交流中,我们使用多种模态来传递信息,例如语言(听觉模态)、文字(视觉模态)、肢体语言(视觉模态)和声音(听觉模态)。在人工智能中,模态通常指的是数据的类型:

  • 视觉模态:图像、视频
  • 听觉模态:音频、语音
  • 文本模态:文字
  • 触觉模态:触觉反馈或通过触觉感知的数据

二、什么是跨模态/多模态

1、跨模态

        跨模态指的是在不同模态之间进行信息转换或关联的过程。跨模态处理在人工智能中非常重要,因为它涉及到如何让机器理解和处理不同类型数据的问题。例如我们最常见的语音识别,就是一个听觉模态到文本模态的转换,还有最近很火的AIGC大模型文生图,就是文本模态到视觉模态的转换。跨模态的关键在于如何识别不同模态之间的语义差异,并准确地在它们之间进行信息映射。

2、多模态

        多模态指同时使用或分析多种模态的数据。例如,在一个多模态的情感分析任务中,系统可能会同时考虑文本内容(文本模态)、说话人的语气(听觉模态)和面部表情(视觉模态)。多模态数据处理提供了更丰富的信息,例如结合视觉(图像)、雷达和激光雷达数据来感知环境开发的自动驾驶算法,就是多模态技术的代表作。

三、常见建模策略

1、数据级融合(Data-Level Fusion)

        在最底层的数据级别上进行融合,通常在数据预处理阶段将来自不同模态的原始数据直接合并或叠加在一起,形成一个新的数据集,例如给原始没有文字说明的图像加上标题文本。

2、特征级融合(Feature-Level Fusion)

        特征融合是在特征提取之后进行的融合,这种方式常见于早期的各大研究。一般是对不同模态的数据分别提取出各自的特征表示,然后将这些特征表示在某一特征层上进行融合(说白了就是向量拼接,比如768维的文本向量拼一个300维的图像向量)。

3、目标级融合(Decision-Level Fusion)

        每个模态的模型首先独立地处理数据并给出自己的预测结果,然后将这些预测结果进行整合以得到最终的决策结果,适用于需要综合考虑多个独立模型预测结果的场景,如多传感器数据融合、多专家意见综合等。一般来说这里的每个单模态模型应当有着相同的预测目标,例如通过文本判断情感正负极、通过表情图像判断情感正负极,然后综合两个结果,类似于Bagging。

四、总结

        跨模态和多模态技术本质上是为了提供更加丰富的决策信息,在不少业务场景中的确比单模态模型效果要高出不少。但是,这随之而来也增加了建模成本,比如我们需要从多个来源中获取不同模态的数据,并且要考虑最优的模态融合建模策略。笔者的建议是在单模态信息明显匮乏,且手头上可以轻易获取到其他模态的信息做辅助时,不妨大胆考虑多模态建模。如果单模态建模的效果已经符合指标要求,或者其他模态数据获取成本特别大,除非是做学术,否则研究跨模态或者多模态多少有点吃力不讨好了。

Logo

NVIDIA官方入驻,分享最新的官方资源以及活动/会议信息,精选收录AI相关技术内容,欢迎大家加入社区并参与讨论。

更多推荐