即插即用多模态融合模块CMF，涨点起飞

题目：M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection论文地址: https://arxiv.org/pdf/2104.09770。

大靠山

1401人浏览 · 2024-10-16 20:20:04

大靠山 · 2024-10-16 20:20:04 发布

论文介绍

题目：M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection

论文地址: https://arxiv.org/pdf/2104.09770

创新点

提出M2TR模型：论文提出了一种多模态多尺度Transformer（M2TR）用于Deepfake检测。M2TR结合了多尺度Transformer结构和频域特征检测，以捕捉图像中不同尺度的伪造痕迹。这种设计能够更有效地检测出隐藏在RGB域中不可见的伪造特征。
多模态融合：M2TR通过设计的交叉模态融合模块，将RGB特征和频域特征结合，提升了检测模型在不同图像压缩条件下的鲁棒性。相较于单纯依赖RGB域的检测方法，这种融合策略使得M2TR在处理各种伪造图像时更具适应性。
构建高质量Deepfake数据集SR-DF：论文还构建了一个大规模且高质量的Deepfake数据集——SR-DF。这个数据集使用了多种最新的脸部交换和面部重演技术生成伪造视频，并且设计了综合的评估系统来量化数据集的质量，为Deepfake检测研究提供了更丰富的数据和更严格的测试基准。
多任务学习策略：为了提高模型的泛化能力，M2TR在二分类检测的同时，还引入了伪造区域的多任务学习。通过预测伪造区域的掩码，增强了模型对伪造特征的监督，有效降低了模型过拟合的风险。

方法

整体结构

M2TR模型采用多模态两流架构，通过RGB流和频率流分别在空间域和频域中提取伪造特征，结合多尺度Transformer模块以捕捉不同尺度下的伪造痕迹。频率滤波模块通过快速傅里叶变换提取频域特征，交叉模态融合模块将RGB和频率特征结合，生成统一的特征表示。最后，模型通过全连接层进行二分类预测，同时输出伪造区域的掩码，提升了对Deepfake检测的精度和鲁棒性。

多模态两流架构：M2TR模型使用两条并行的特征提取流，分别为RGB流和频率流。RGB流针对图像的空间信息进行分析，捕捉图像中不同区域的纹理特征和色彩不一致性。频率流则通过对图像进行频域转换，提取那些在RGB空间中难以察觉的伪造痕迹，尤其是图像压缩或噪声处理后残存的伪造特征。通过这样的双流设计，模型可以利用来自两种不同域的信息，从而更全面地检测伪造痕迹。
多尺度Transformer模块：在RGB流中，模型采用了多尺度Transformer模块来处理图像。该模块首先将输入图像特征划分为不同大小的patch（图像块），然后在每个patch上使用自注意力机制进行特征提取。多尺度设计使得模型可以同时关注大范围的全局特征（如大面积的颜色差异）和小范围的局部特征（如细小的伪造边界）。这种方式让模型能够有效捕捉到不同尺度下的伪造特征，从而提高检测的精度。
频率滤波模块：为了处理在RGB域中难以检测到的伪造特征，M2TR模型在频率流中加入了频率滤波模块。该模块首先使用二维快速傅里叶变换（2D FFT）将RGB特征转换到频域，得到图像的频谱表示。然后，通过可学习的频率滤波器来筛选不同频率段的信息，特别是伪造区域可能存在的异常频率分量。接着，再通过逆傅里叶变换（iFFT）将处理后的频率特征转换回空间域，结合RGB特征进行进一步的伪造检测。
交叉模态融合模块（CMF Block）：为了将来自RGB流和频率流的特征进行有效整合，模型设计了交叉模态融合模块（CMF Block）。该模块利用查询-键-值（Query-Key-Value）机制，类似于自注意力机制，将RGB特征与频域特征进行融合。通过这种方式，模型可以充分利用不同模态中的互补信息，使得最终的特征表示更加全面，能够更精确地反映出图像中的伪造痕迹。
分类器与多任务学习：融合后的特征通过全连接层进行二分类任务，输出图像是真实的还是伪造的。同时，M2TR模型还采用了多任务学习策略，在检测伪造的同时预测伪造区域的掩码（mask）。这一掩码用于标注图像中被判定为伪造的具体区域，提供了更细粒度的伪造位置信息。通过增加这项任务，模型可以获取更丰富的监督信号，从而在训练过程中更加关注伪造区域，降低模型的过拟合风险。
输出：模型最终生成两部分输出结果：一是二分类的检测结果，即输入图像是否为伪造；二是用于定位伪造区域的掩码（mask），可以直观地展示出图像中伪造的部分。这种设计不仅能够识别Deepfake图像，还能明确指出伪造的位置，从而在实际应用中提供更多参考。

实验结果

对比了M2TR与其他主流Deepfake检测方法在不同质量设置（RAW、HQ、LQ）下的性能表现，包括精度（ACC）和AUC分数。结果显示，M2TR在所有设置下均表现优异，尤其是在低质量（LQ）图像检测上，比其他方法有显著的优势。

对比了M2TR和其他Deepfake检测方法在Celeb-DF和SR-DF数据集上的帧级检测性能。结果表明，M2TR在Celeb-DF和SR-DF数据集上均取得了最高的AUC得分，展示了模型的高效性和跨数据集的泛化能力。

展示了M2TR模型在视频级别上的检测性能，并与其他方法（如P3D、R3D、I3D等）进行了对比。M2TR通过引入时序Transformer扩展了模型的检测能力，在视频数据上表现出色，尤其在SR-DF数据集上的表现进一步验证了模型在处理视频时的优势。

对比了去掉多尺度Transformer、频率滤波模块和交叉模态融合模块对模型性能的影响，验证了各模块对模型性能提升的贡献。结果显示，所有组件的组合对M2TR的整体性能至关重要，特别是在低质量图像检测中，频率滤波模块对AUC提升显著。

模块作用

CMF_block作为一个即插即用模块，主要适用于：

多模态数据融合：CMF模块适合用于处理需要融合来自多个模态的数据的任务，比如图像与频域特征、RGB与深度信息、音频与视频特征等。这类数据在特征维度上存在差异，通过CMF模块，可以实现模态之间的有效融合。
图像或视频的伪造检测：在Deepfake检测之外，CMF模块可以用于其他伪造检测场景，如图像篡改检测、视频合成识别等。通过结合空间特征和频域特征，CMF模块能够提升检测算法对细微伪造痕迹的敏感度。
医学图像分析：在医学影像分析中，经常需要将不同类型的图像（如MRI、CT）或不同的图像处理结果进行融合。CMF模块可以帮助将这些不同来源的数据整合到一起，增强模型对疾病检测或诊断的准确性。
遥感影像分析：在遥感图像处理领域，CMF模块可以用于融合光学影像与雷达影像，提升对地面物体识别和变化检测的能力。

模块

import math  
import torch  
import torch.fft  
import torch.nn as nn  
import torch.nn.functional as F  
# 论文：M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection  
# 论文地址：https://arxiv.org/pdf/2104.09770  
class CMA_Block(nn.Module):  
    def __init__(self, in_channel, hidden_channel, out_channel):  
        super(CMA_Block, self).__init__()  
  
        self.conv1 = nn.Conv2d(  
            in_channel, hidden_channel, kernel_size=1, stride=1, padding=0  
        )  
        self.conv2 = nn.Conv2d(  
            in_channel, hidden_channel, kernel_size=1, stride=1, padding=0  
        )  
        self.conv3 = nn.Conv2d(  
            in_channel, hidden_channel, kernel_size=1, stride=1, padding=0  
        )  
  
        self.scale = hidden_channel ** -0.5  
  
        self.conv4 = nn.Sequential(  
            nn.Conv2d(  
                hidden_channel, out_channel, kernel_size=1, stride=1, padding=0  
            ),  
            nn.BatchNorm2d(out_channel),  
            nn.LeakyReLU(0.2, inplace=True),  
        )  
  
    def forward(self, rgb, freq):  
        _, _, h, w = rgb.size()  
  
        q = self.conv1(rgb)  
        k = self.conv2(freq)  
        v = self.conv3(freq)  
  
        q = q.view(q.size(0), q.size(1), q.size(2) * q.size(3)).transpose(  
            -2, -1  
        )  
        k = k.view(k.size(0), k.size(1), k.size(2) * k.size(3))  
  
        attn = torch.matmul(q, k) * self.scale  
        m = attn.softmax(dim=-1)  
  
        v = v.view(v.size(0), v.size(1), v.size(2) * v.size(3)).transpose(  
            -2, -1  
        )  
        z = torch.matmul(m, v)  
        z = z.view(z.size(0), h, w, -1)  
        z = z.permute(0, 3, 1, 2).contiguous()  
  
        output = rgb + self.conv4(z)  
  
        return output  
  
  
if __name__ == '__main__':  
    in_channel = 64  
    hidden_channel = 32  
    out_channel = 64  
    h = 64  
    w = 64  
  
    block = CMA_Block(in_channel, hidden_channel, out_channel)  
  
    rgb_input = torch.rand(1, in_channel, h, w)  
    freq_input = torch.rand(1, in_channel, h, w)  
  
    output = block(rgb_input, freq_input)  
  
    print("RGB Input size:", rgb_input.size())  
    print("Freq Input size:", freq_input.size())  
    print("Output size:", output.size())

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

NVIDIA AI技术专区

NVIDIA官方入驻，分享最新的官方资源以及活动/会议信息，精选收录AI相关技术内容，欢迎大家加入社区并参与讨论。

更多推荐

16_Vue3动画(一)之动画的基本使用及animate.css库的使用

Vue3动画的基本使用及animate.css库的使用认识动画在开发中，我们想要给一个组件的显示和消失添加某种过渡动画，可以很好的增加用户体验：React框架本身并没有提供任何动画相关的API，所以在React中使用过渡动画我们需要使用一个第三方库react-transition-group；Vue中为我们提供一些内置组件和对应的API来完成动画，利用它们我们可以方便的实现过渡动画效果；我们来看一