多模态论文2：Recurrent Multimodal Interaction for Referring Image Segmentation循环多模态交互 RMI模型

本文是一种循环多模态交互模型(RMI)，用于指称图像分割任务，与之前方法独立处理文本和图像不同，该模型采用双层LSTM结构，在读取每个单词时即与视觉特征进行交互：底层LSTM编码语义信息，上层卷积多模态LSTM(mLSTM)融合语言、视觉和空间特征，这种序列化交互方式更符合人类处理模式，能有效捕捉长程依赖关系

2301_79268239

1125人浏览 · 2025-05-28 17:11:52

2301_79268239 · 2025-05-28 17:11:52 发布

标题：Recurrent Multimodal Interaction for Referring Image Segmentation --2017

用循环多模态交互进行指称图像分割

文章代码链接chenxi116/TF-phrasecut-public — chenxi116/TF-phrasecut-public

摘要：

本文认为在对图像分割任务联合建模两种模态的意义上，学习词与图像的交互是更自然的，
提出了卷积多模态联合LSTM来编码单个词、视觉信息和空间信息之间的顺序交互
（与之前独立处理文本和图像最后融合信息的方法不同）

此外，分析了该方法的中间输出，并从经验上解释了这种方法如何实现更有效的从文字到图像的交互

关键图：

展示图

在这里插入图片描述

（该图展示了给定自然语言表达式在读取到划线词时的不同表现，第一行是LSTM基线模型，未进行图像交互，第二行是本文提出的卷积LSTM融合模型，可以看到分割正确并不局限当前单词影响，反映出该模型有助于长期记忆并正确分割出参考区域)

模型图

在这里插入图片描述

通过使用卷积多模态LSTM，该模型允许每个单词的语言、图像和空间信息之间的多模态交互。
mLSTM应用于图像中的所有位置，类似于以1 × 1卷积的作用实现

具体来说，本模型与基线模型不同之处在于将LSTM编码到各个词(token)时的结果（每个时间步的编码结果）都与图像进行融合，实现了图像与各阶段文本之间的交互，最后融合原特征图、编码文本特征、融合文本特征图信息后得出分割掩码

具体流程：
1.图像经过视觉处理器后与空间坐标拼接得到空间信息特征图，
2.将特征图与未经过LSTM的文本信息以及LSTM编码每个时间步后的文本特征后融合，
3.将生成的语义-视觉特征图输入到mLSTM中，
4.最后以mLSTM的输出经过全卷积网络得到分割掩码

结论：

与以往将参考表达式和图像独立编码为向量表示的工作不同，
本文基于自然语言的图像分割是一个连续的过程，并在看到自然语言表达式中的每个单词后进行多模态特征融合，
提出了循环多模态交互模型，这是一种新颖的双层循环架构（使用一次LSTM和一次mLSTM），
将单个单词、视觉信息和空间信息之间的顺序交互编码为其隐藏状态，
该模型在所有大规模基准数据集上都达到了最新的水平（2017年），
此外，本文将mLSTM隐藏状态可视化，并表明学习到人类可解释的多模态特征

引言：

研究背景：

自然语言引导图像分割问题和对应解决模型刚刚被提出的，但原方案并不能模仿人类解决这个问题的方法—— （在句子-图片验证中，通过人眼追踪发现，当图片和句子同时呈现时，人们要么遵循图像-句子-图像的阅读顺序，要么在句子和图片之间来回多次才做出决定，即图像和句子之间的互动应该从开头一直持续到句尾，而不是只发生在句尾，认为推理过程可以分解为一个顺序过程）

研究问题：

研究了使用自然语言表达来引导分割图像：给定图像和自然语言表达式，分割出表达式指向的相应区域

解决方案：

在这种顺序决策理论的激励下，本文提出了一个两层卷积多模态LSTM网络，该网络明确地模拟了词与图像的交互，与以往研究中仅使用语言的LSTM不同，卷积多模态LSTM以视觉特征和语言表示作为输入，生成隐藏状态，该状态在记忆中同时保留了空间和语义信息，因此，它的隐藏状态模拟了多模态特征如何随着时间或阅读顺序而发展。在看完最后一个单词后，用卷积层来生成图像分割的掩码

模型：

1.模型中使用的符号

在这里插入图片描述

图像用 I 表示，自然语言表达式 S={w₁,w₂,…,w_t},其中每个w_i表示一个独立的单词
使用R作为模型预测结果，R^作为真实结果

2.基线模型

在这里插入图片描述

上一篇Segmentation from Natural Language Expressions论文中所提出的模型

3.本文提出的RMI模型

在这里插入图片描述

使用多模态LSTM来捕获丰富的多模态信息随时间的变化，

在这里插入图片描述

使用视觉特征图和文本特征信息、隐藏状态h、候选记忆单元c作为输入，输出新的h和c

mLSTM一个特点是：可以通过权重矩阵控制是否忽略当前的语义信息或者说视觉特征信息
另一方面：基线模型需要经过：在这里插入图片描述

而本模型：
在这里插入图片描述

实际上这里应该是想表示多模态特征更早的融合了，
此处的l_t表示仅文本信息的LSTM隐藏状态和词嵌入向量的连接，而非单纯的词嵌入向量

该模型形成了一个两层LSTM结构，其中下层LSTM只对语义信息进行编码，上层LSTM生成多模态特征。低级语言LSTM是空间不可知的，而上层多模态LSTM保持特征分辨率H ‘ × W ’

实验：

实验结果

在这里插入图片描述

可视化过程

在这里插入图片描述

实现细节

分别在ImageNet上进行预训练的ResNet-101和在Pascal VOC上进行微调的DeepLab-101作为视觉处理器，
实验中调整图像大小为W = H = 320，特征分辨率W ’ = H ’ = 40。图像特征的维数D_I= 1000，
句子向量的维数D_S = 1000，mLSTM的单元格大小为500，对于长度大于20的表达式，只保留前20个单词

batch_size设置为1，权重衰减为0.0005，使用固定学习率为0.00025的Adam优化器

! 在这里插入图片描述

损失函数类似于基线方法，采用双线性插值在测试时对R∈R^W‘×H’进行上采样

问题：

问题 1：论文提出的 Recurrent Multimodal Interaction (RMI) 模型的核心创新点是什么？它如何解决原有方法在RIS任务中的局限性？

核心创新点在于引入了卷积多模态 mLSTM，这是一种新颖的两层循环架构，能够对单词、视觉信息和空间信息之间的序列交互进行编码，并将其作为隐藏状态。
与传统方法不同，RMI 模型将RIS视为一个序列过程，通过处理完图像后在看到自然语言表达中的每个单词后立即进行多模态特征融合并通过mLSTM保存历史多模态特征信息，从而使语言模型能够从表达的开头就访问图像信息，将语义信息及早地与图像信息相结合。
这种方式解决了传统方法仅在句子末尾才进行图像与句子交互的局限性，更符合人类处理此类任务时的序列决策过程，能够更好地对长序列进行特征融合，提高了分割的准确性

问题 2：怎么理解mLSTM相当于对大小为 W′×H′×(DI+DS+8) 的特征图执行 1×1 卷积这句话

RMI 模型中的 mLSTM 通过在所有空间位置共享其内部参数（权重矩阵），实现了对空间特征的一种处理方式。这种处理方式在“对每个空间位置的特征向量应用相同的线性/非线性变换”这一点上，与 1x1 卷积非常相似。然而，LSTM 比简单的 1x1 卷积更强大，因为它还引入了循环状态，使其能够捕捉和利用空间位置之间的依赖关系或上下文信息，而不仅仅是孤立地处理每个位置