集智书童 | 多教师特权知识精馏在多模态表达识别中的应用 !
人类的情感是一种复杂的现象,通过面部表情、声音语调、身体语言和生理信号来传达和感知。多模态情感识别系统可以表现良好,因为它们可以从不同的传感器中学习互补和冗余的语义信息。在现实世界的场景中,测试时可能只存在用于训练的部分模态。学习特权信息允许模型利用在训练期间才可用的额外模态的数据。
本文来源公众号“集智书童”,仅用于学术分享,侵权删,干货满满。
人类的情感是一种复杂的现象,通过面部表情、声音语调、身体语言和生理信号来传达和感知。多模态情感识别系统可以表现良好,因为它们可以从不同的传感器中学习互补和冗余的语义信息。在现实世界的场景中,测试时可能只存在用于训练的部分模态。学习特权信息允许模型利用在训练期间才可用的额外模态的数据。
最先进的特权知识蒸馏(PKD)方法已经被提出,用于从教师模型(结合不同的流行和特权模态)到学生模型(没有访问特权模态)的蒸馏。然而,这样的PKD方法使用点对点匹配,并没有明确捕捉到多模态空间中的关系信息。最近,已经提出了捕获和蒸馏结构信息的方法,并超越了点对点的PKD方法。但是,基于结构相似性的PKD方法主要局限于从单个联合教师表示中学习,这限制了它们的鲁棒性、准确性和从多样多模态源中学习的能力。
在本文中,作者引入了一种带有自蒸馏的多教师PKD(MT-PKDOT)方法,用于在蒸馏到学生之前对不同的教师表示进行对齐。MT-PKDOT采用基于正则化最优传输(OT)的结构相似性知识蒸馏机制。在损失函数中添加了一个额外的约束,以明确对学生空间中的质心进行对齐。
所提出的MT-PKDOT方法在两个具有挑战性的情感计算任务上进行了验证:在Affwild2上的愉悦度/唤醒度预测和在Biovid数据库上的疼痛估计。结果表明,作者提出的方法可以超越最先进的PKD方法。在Biovid数据上,该方法将仅视觉的基线提高了5.5%。
在Affwild2数据集上,所提出的方法在愉悦度和唤醒度上分别比仅视觉的基线提高了3%和5%。允许学生从多个多样源中学习被证明可以提高准确性,并隐式避免了负迁移到学生模型。代码已公开可用:https://github.com/haseebaslam95/MT-PKDOT。
I Introduction
在野外中进行情绪识别(ER)面临着独特的挑战,这些挑战包括环境变化、由于种族多样性导致的领域漂移,以及姿态变化以及某些模态部分或完全缺失等。这导致了越来越多的人对多模态ER(MER)系统的兴趣,该系统旨在模拟人类对情绪的类似于人类的识别过程[1]。由于跨模态信息能捕获冗余和互补性,因此多模态ER系统通常比单一模态系统表现更好[4,5]。尽管捕捉和融合多个模态会带来额外的成本,但这在有控制的环境(训练和测试时间都有所有模态可用)中的确能够提高精确度。然而,在实际场景中,某些模态的获取具有挑战性或代价高昂。为了克服这个问题,已有类似联合交叉注意力[6]的方法提出,可以动态地评估和权衡各个模态的重要性。但是,在有些情况下,某些模态是完全缺失的,对这些情况的处理效果有限。
MER系统包括多种模态,如面部、音频、文本和生理信号等。其中一些模态在野外更容易获取,如电极记录(EEG)、心电图(ECG)和肌电图(EMG)等生理信号[7] [8],相比之下更具挑战性。然而,在某些情况下,这些生理信号比其他信号更有价值。例如,已经在疼痛估计等任务中,生理信号的表现超过了视觉模态[9]。然而,在实际场景中,生理信号并不总是可用。由于这种系统限制了受试者的自由移动,并需要专门的设备,大多数方法通常依赖于在设计和部署时都可用以及可用和可解释性高的模态,导致系统性能较低。然而,利用训练时间内仅可用的特殊信息(即拥有的优势模态)或许可以在测试时提升系统性能。
最近,机器学习中的使用特殊信息(LUPI)范式被引入用于情感计算[2,3,10]。机器学习中的特殊信息(PI)是在模型训练时间而非推理时间内可用的信息[11]。对于多模态系统,PI通常是仅在训练时间可用且只有训练和推理时间可用的特殊模态。LUPI方法已证明,只需要在训练和推理时间内可用且可解释性高的模态,就可以提高多模态系统的性能。这些方法通常遵循学生-教师框架进行知识传递。在训练了所有模态的模型充当教师网络,由多个针对常见模态(每个)专门子网络和一个融合模块来组合他们的特征表示,学生通常是一个没有PI且相应的模块[2]。
初步研究采用常规知识蒸馏(KD)方法[10],使用教师网络和学生在软化对数几率之间的KL散度[10]。研究行人还探索了用cosine相似性[2]或均方误差(MSE)[10]等方式在特征空间内传递这方面的知识。虽然所有这些方法都使用点对点匹配,但无法捕获教师空间中形成的局部结构,如图1(a)所示。所谓本地结构是指在训练批次内,每个样本与其他所有样本的距离计算的更细粒度知识表示。这种结构信息由教师空间的常见和特殊模态之间的相互作用形成,因此应捕获到以模拟学生在教师空间中的性能[3]。如1(b)所示。
朱等人[14]研究了从多个多教师向单个学生的浓缩知识的概念。作者研究了多个具有相同 Backbone 结构的教师在相同数据集上训练并使用相同算法的情况。唯一的不同之处是随机种子初始化。学生使用由组合的软标签以及原始硬标签联合训练。作者得出结论:将使用不同随机种子训练的多种教师模型组合在一起可以提高学生准确性。受此启发,作者探索了多教师KD的思想。在作者的情况下,多样性由不同的模态特定数据和 Backbone 结构定义 - 每个教师 Backbone 结构训练时使用不同的模态,并将其融合形成联合多模态表示。然后将这个融合表示与 Backbone 对齐,形成多教师池。
本文的主要贡献是具有最优传输(MT-PKDOT)方法的多种教师特权KD,该方法使学生可以从多种多模态来源学习,从而提高鲁棒性和准确性,并减轻负迁移。其他重要贡献包括:(1)引入新的损失函数,显式地强制质心与基于结构相似度的KD同时对齐;(2)在两个具有挑战性的情感计算任务上进行了一系列详细的实验 - 在Affwild2上的兴奋度-效价预测以及在Biovid热痛数据库上的疼痛估计。使用多种教师架构和不同模态的实验结果表明,所提出的MT-PKDOT方法对模型和模态均不敏感,并且可以超过最先进的单教师特权KD方法。
本文扩展了作者的 previous work [3],作者在使用单个融合教师的PKDOT方法的基础上,引入了最优传输(PKDOT)方法以及额外的监督。PKDOT引入了结构KD机制来捕获和浓缩结构暗知识。余弦相似矩阵用于保留所有批次样本之间所有对关系的信息。在教师培训阶段,采用了一个编码-解码变形网络(T-Net)进行训练。使用熵受限的OT用于浓缩结构暗知识。然而,本文将单教师架构扩展到了多教师设置。多个教师,即特定的模态教师和融合教师,通过自我蒸馏和特定的适应器进行对齐。模态 Adapter 实现了编码-解码网络,旨在将 Backbone 表示和联合表示在同一子空间中进行投影。在对特定模态的教师对齐完成之后,选择最小误差率的教师。另外,现有的PKDOT方法[3]仅依靠结构相似性损失用于知识传递。除了使用PKDOT和现有的方法,MT-PKDOT计算从所选 Anchor 点中得到的质心的l^2距离,以显式地使样本对齐。质心表示教师和学生空间中的几何平均值。显式地对齐这些质心使得浓缩过程更加可控,因为这样的约束有助于通过减少学生模型参数更新的方差来稳定学习过程。质心作为 Anchor 点,减少了振荡,使得浓缩过程更加稳定,并有助于更快地收敛。 图1(b)和(c)比较了PKDOT和MT-PKDOT方法。
本文其余部分的组织结构如下。第二部分对与多模态MER和PKD相关的最新研究进行了分析。第三部分描述了提出的MT-PKDOT方法及其关键组成部分。然后,第四部分详细阐述了用于验证(即,数据集、评估标准、基准和实现细节)的实验方法。第五部分呈现并分析了实验结果。
II Related Work
Multimodal Emotion Recognition:
MER方法通过利用语音、语音语调、生理学、文本和面部线索等多种输入来源来模拟和理解人类情绪。多模态深度学习的前驱工作是由Ngiam等人提出的[15],其中音频和视觉模态分别编码。融合时,两种模态的潜在向量连接起来形成联合表示。采用了一种二模态深度自编码器来分别重构两种模态。
在ER中,Tzirakis等人提出了一种基于循环网络的融合技术[16],其中音频特征使用1D卷积神经网络(CNN)提取,视觉模态使用ResNet-50模型处理。两种特征向量连接并输入到2层LSTM模型中,以联合融合和建模时间相关性。Rajasekhar等人提出了一种joint cross-attention机制,用于克服噪声/缺失模态问题,其中有些模态非常不可靠。分别训练了两种模态的独立 backbone。对于音频模态,使用离散傅里叶变换(DFT)对音频信号进行离散,得到频谱图,输入到ResNet-18。对于视觉模态,使用3D CNN提取时空特征。采用joint cross-attention模型将两个特征向量融合。将注意力权重与原始特征相乘,得到交叉关注特征。这些交叉关注特征通过动态分配权重的方法克服了噪声模态问题。
疼痛分析是情感计算中的另一个重要应用,有多公开的数据集。这些数据集包括通过热诱导产生的疼痛[17],肩膀疼痛[18],动物[19]和儿童[20]的疼痛估计。已经提出了各种方法来检测和估计疼痛。Werner等人开发了一种针对疼痛的特征集,称为面部活动描述符。Dragomir等人提出了一种基于深度学习的独立深度学习方法[22],其中使用了残差学习概念进行疼痛估计。Morabit等人提出了一种数据高效的图像 Transformer 结构[23]。Zhi等人提出了一种基于循环网络的方法[24],其中使用具有稀疏性的LSTM模型克服了消失梯度问题。Phan等人提出了一种基于生理信号的方法[8],其中ECG和皮肤电活动(EDA)信号使用注意力方法处理。LSTM模型用于捕获多级上下文信息。在最终预测中,两种模态在决策 Level 上进行融合。另外一种基于EDA的方法是由Lu等人提出的。输入多尺度EDA信号窗口到基于残差的挤压和增强(Squeeze and Excitation)CNN,然后将输出组合并并输入到 Transformer 模型中。具体在疼痛估计方面,基于生理信号的方法已经显示出比基于图像的方法更好的性能。已经提出了几种多模态方法来利用多种信息源。Zhu等人[26],Kachele等人[27]和Werner等人[28]提出了将视觉和生理信号组合的方法。
多模态系统的性能和鲁棒性通常以时间和计算复杂性为代价。为了最小化计算复杂性,采用了如Transformer中的注意力瓶颈[29]等方法。然而,这些方法在某些模态完全缺失的情况下仍然不足。另一方面,所提出的方法旨在在依赖较少的情况下增强测试时的性能。
Knowledge Distillation and Optimal Transport:
Hinton等人[30]在师生设置下提出了关于压缩模型的初步工作。轻量级的学生模型在准确而笨重的教师模型的额外监督下进行训练。教师模型的softmax中的温度增加以获得不太确信但更具有信息含量的预测,这被称为'暗知识'。这些软化的预测比单热编码更具信息性。罗梅罗等人[31]提出了提示学习,本质上是从模型的隐藏层而不是软化的logits中提取。自那时以来,已经提出了几种基于特征的KD方法[2,3]。Vanilla KD方法只考虑单个样本,并且仅依赖教师和学生之间的输出激活匹配。由Park等人[34]提出的关系KD方法中,作者认为样本之间的关系知识可以显著提高学生模型的性能,因此提出了一种专门用于计算多教师 privileged KD设置中模型的最优化传输(OT)成本的方法。
最优传输(OT)是一种经过充分证明的数学框架,用于计算将一种概率分布转换为另一种概率分布的最优成本[35]。OT已在机器学习应用中广泛使用,特别是当匹配分布至关重要的情况下。其他分布匹配方法包括KL散度和最大均方差,都存在理论上的缺陷[36]。KL散度的一个缺点是当分布不重叠时会得到无穷大[37]。另一方面,由于它对异常值和样本大小的敏感性,MMD无法精确捕捉分布之间的距离[38]。虽然是一种昂贵的解决方案,但OT提供了用于匹配分布的稳定度量。Cuturi等人[39]提出了一种带有正则化的OT方法,以克服OT的计算限制。自那时以来,许多研究都利用了OT的各种应用,包括神经架构搜索[40],域自适应[41],模型压缩[37],行人检测[42]。据作者所知,这是首次在表达识别的背景下利用OT的多教师 privileged KD设置。
综上,Hinton等人[30]等人在师生设置下提出了关于压缩模型的初步工作,使用软化的预测而不是单热编码,从而使其更具有信息性。罗梅罗等人[31]提出的提示学习本质上是从模型的隐藏层而不是软化的logits中提取。自那时以来,已经提出了多种基于特征的KD方法,而Park等人[34]提出的关系KD方法则提出了一种专门用于计算多教师 privileged KD设置中模型的最优化传输(OT)成本的方法。此外,Cuturi等人[39]提出了一种带有正则化的OT方法,以克服OT的计算限制。
Multi-Teacher and Privileged Knowledge Distillation:
文献中提出了一些多教师知识分布(KD)方法。Some et al. [43] 提出了一种多教师语音ER系统,先分别训练语言老师和语调老师,然后使用来自冻结的语调和语言老师的额外监督训练语音学生。知识在逻辑和特征层面进行转移。Sarkar等人[44]提出了一种跨模态KD方法,用于视频表示学习。进行 Mask 重构、域对齐和跨模态KD步骤来提高视频动作分类和声音分类的整体性能。Ma等人[45]提出了一种基于自蒸馏的会话ER方法,使用 Transformer 模型学习跨模态和模态内的交互。使用多层门控机制动态地权衡模式。软标签和硬标签用于将从多模态模型中蒸馏的知识传递给每个模式。Long等人[46]也提出了一种多分枝融合的自我KD以有效利用浅层知识。引入不同分枝的知识可增强基于CNN的方法的性能。
多模态机器学习(ML)中模式的质量与可用性是一个问题。由于遮挡、用户引发的静音和/或传输/记录错误,视觉、音频和文本模式可能会部分丢失。对于RGB-D数据,RGB数据在训练时间和部署时都容易获得,但深度模态并不总是可用。同样对于情感计算,例如EDA、EMG和ECG这样的生理信号在训练时可能可用,但在部署时可能完全不可用。LUPI范式可以在训练时仅利用这一信息。Vapnik和Vashist在ML中提出了PI[11]的概念,额外信息在训练时可用,用于学习更有鉴别性的信息,从而超过使用在训练和测试时相同信息的传统ML范式。许多应用(例如动作识别[47]和行人重识别[48])现在都利用LUPI这一概念来提高性能或增加鲁棒性。Zhao等人[49]提出了一个在线行动检测的优先KD机制,其中PI是在训练时间中唯一的未来帧。然而,在实际部署中,只有历史帧可用。为了最小化学生-教师之间的差距,使用KL-divergence仅部分更新学生模型中的隐特征。
当情感计算的重点转向更接近自然场景的设置时,由于在测试时完全缺失模态的 privileged KD 方法变得越来越受欢迎。现有方法主要将PI作为附加模态来训练更优越的多模态教师,然后将信息迁移到学生模型。因此,使用 KL 分离来最小化从教师模型中获得的负转移。Aslam等人[2]提出了一种基于点对点匹配的方法。在多模态教师与学生模型之间的知识传递中增加了余弦损失,用于减少教师方法引起的负面转移。采用任务损失和KD之间的自适应加权以减小学生模型与教师模型之间的负迁移。Makantasis等人[10]提出了一种用于两个任务的受优先监督的KD 方法,其中用于分类表达识别问题的 KL 分离损失,而对于唤醒度和效价预测模型则采用 MSE 损失函数来训练。Liu等人[50]也在生理信号域提出了基于优先KD的方法,其中学生模型受从使用EEG和GSR训练的教师模型的额外监督,KD 损失使用的是 KL 分割。虽然这些方法可以提高学生模型的性能,但它们缺少捕捉多模态教师空间中关系知识的机制。引入优先模式应在学生网络中传递教师网络空间中形成的本地结构以提高性能。此外,上述PKD 方法都受限于从单一的联合教师学习,这极大地限制了它们的鲁棒性和从多个多样化来源学习的能力。
与上述方法相反,作者提出的方法使用联合多模态特征空间进行自我减法以获得特定模态特征表示。作者目标是使教师表示对齐并有效创建一个多样化的多教师池,供学生学习。
III Proposed Approach
MT-PKDOT方法依赖于教师模型的多样性以提高学生网络的性能。在教师空间中,针对特定模态的特征使用模态 Adapter 与融合特征向量对齐。对齐后的教师作为学生的额外监督。在学生训练时,根据任务性能指标选择最自信的教师。此外,结构相似性矩阵计算和 Anchor 点选择类似于PKDOT [3]。在进行蒸馏时,除了OT损失外,还添加了一个约束最小化质心损失,以同时对齐质心和蒸馏结构信息。图2显示了所提出的MT-PKDOT方法的各个模块。其余子节详细介绍了此框架的关键组件。
Teacher Alignment using Self Distillation and Selection:
Relational Knowledge Capture:
Entropy Regularized Optimal Transport:
1. 教师对齐与自蒸馏
Multi-Teacher Knowledge Distillation:
负转移缓解 作者提出的算法隐式地缓解了负转移。在教师选择阶段,该方法基于每个对齐的教师表示的损失值选择最自信的教师。如果与对齐 Backbone 教师网络的损失值大于现有的联合教师损失,模型将倾向于重新学习联合教师。
算法2教师选择和学生训练与最优传输和质心损失
IV Experimental Methodology
第四节 实验方法
Datasets and Evaluation Protocol
1) 生物视觉热疼痛数据库(Bivoid Heat Pain Database)是用于疼痛估计的最受欢迎的数据集之一。该数据集分为5部分。作者使用数据集中的A部分和B部分。A部分的数据显示了视频以及生理信号,包括GSR(皮肤电反应)、EMG(肌电图)和ECG(心电图)。数据集中为疼痛强度标记了离散的标签,其中 BL 指的是 ' Baseline /无疼痛', PA1-PA4 指的是疼痛强度的逐渐增加。生物视觉 A 部分共有 87 个参与者,每人有 100 个视频,对应每个类别的 20 个视频,总共 8700 个视频。有 20 个参与者对疼痛刺激没有任何明显的反应,因此一些研究只报告了这剩下的 67 个参与者的结果。为验证所提出的算法,作者在 87 个参与者的整个数据集中报告了结果。除了 A 部分中可用的模式外,数据集中的 B 部分还记录了面部 EMG,共包含 87 个参与者,对应 8700 个视频。生物视觉数据集中没有预定义的训练、验证或测试划分,因此许多研究使用交叉验证来验证他们的方法。在使用交叉验证验证后,作者还使用五折交叉验证验证了所提出的算法。使用的性能度量是准确性。
2) Affwild2 是 wild-ER(现场情感计算)中最全面的数据集之一[52]。该数据集包含总共 564 个有变化长度的视频。数据集包括三个主要情感计算任务,即动作单元检测问题、类别表达识别和连续唤醒/效价预测问题。为验证所提出的算法,作者使用了 Affwild2 中的唤醒/效价预测集。Affwild2 中包含各种性别、年龄、种族和捕捉条件等的视频,这使得 Affwild2 在泛化方面具有挑战性。数据集预定义了用于训练、验证和测试子集的 351、71 和 152 个视频划分。用于评估的性能度量是 CCC(总体准确度)。由于该数据集的测试标注未公开,因此许多研究报告了验证集上的结果。
Implementation Details
Iii-B1 Biovid Dataset
教师对于Biovid(B)数据集,首先将EMG信号转换为维度为67x127的光谱图。采用ResNet-18模型进行生理特征提取,输出特征向量维度为512d。在视觉模式下,使用R3D模型进行特征提取。视觉 Backbone 网络采取面部帧大小112x112作为输入,同时联合建模视觉模式中的时空依赖性。对于两个模态的融合,采用基于 Transformer 的融合模型(图3c)[51]。通过Adam优化器以批量大小64和10^-3的学习率优化视觉 Backbone 网络。两个 Backbone 网络的特征向量被送入两个独立的 Transformer 编码器,然后输入多模态 Transformer 。一个模态的 Query 向量由一个模态生成,而键和值向量由另一个模态生成。跨模态 Transformer 输出交叉自注意力特征,这些特征随后使用可学习权重进行调节。对于最终的预测,将调节后的交叉自注意力特征传递到底部连接层。融合模块使用Adam优化器,学习率10^-4,批量大小64。
老师: 在视觉模式中,作者使用一个3D卷积神经网络进行时空建模。输入的图像大小为112x112像素,批处理大小为8,学习率为10^-3。在音频模式中,提取的音频被分成多个短段,每个短段对应视觉模式中的256帧。对音频段应用离散傅里叶变换(DFT),得到分辨率为64x107的频谱图。关于V结果与讨论,
Comparison with the State-of-the-Art
作者提出的方法在两个不同的数据集上验证了各种融合结构和模态。此外,作者还分别在不同的设置下进行蒸馏,如 'Stronger增强弱者(SEW)' 和 '弱者增强强者(WES)。为了进行更全面的分析,作者蒸馏了不仅视觉模态,还包括生理模态。表1总结了数据集、使用的模态、蒸馏设置和目标学生模态的信息。
作者在表2中与最先进的利用私人数据的深度学习方法进行了比较。作者提出的方法超过了最先进的PKD方法。MT-PKDOT显著超过了余弦相似性、均方根误差和基于点对点KL的PKD方法。PKDOT还超过了最优传输基础的结构性KD。这种改进是因为作者提出的MT-PKDOT方法主要关注多模态教师出现故障的边缘情况。由于多模态教师在顶部仍存在较小的错误率,学生可能会从多模态教师产生不准确预测的情况下学到负面影响。作者通过提供额外的多样化教师表示作为代理教师来克服这个问题。
参考
[1].Multi Teacher Privileged Knowledge Distillation for Multimodal Expression Recognition.
THE END !
文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。
更多推荐
所有评论(0)