CVPR2025 | EarthDial: IBM 提出多模态多时序遥感大模型, 及千万级遥感图文指令数据集

作者构建了一个大规模的遥感图文指令数据集 EarthDial-Instruct，共包含 1111万条指令问答对，涵盖多种遥感传感器、分辨率和时间序列。

大靠山

3173人浏览 · 2025-06-12 21:28:55

大靠山 · 2025-06-12 21:28:55 发布

创新点

支持多模态、多时序、多分辨率的遥感对话模型：
- 覆盖 RGB、SAR、NIR、红外、超光谱等传感器；
- 能处理单幅、双时相和多时相图像；
- 支持从 0.5m 高分辨率航空图到 30m 分辨率卫星图。
构建大规模的遥感图文指令数据集：
- 名为 EarthDial-Instruct，包含 1111万条遥感指令问答数据，远超已有同类数据集（例如GeoChat、LHRS-Bot）。
多任务统一框架：
- 同时支持分类、检测、描述、问答、区域定位、变化检测、甲烷羽流识别、城市热岛识别、树种分类等 44 个下游任务。
适配遥感特点的模型结构：
- 设计了适应高分辨率输入的 Adaptive High Resolution 模块；
- 提出了处理多波段/多时相数据的 Data Fusion 融合模块；
- 使用 三阶段训练策略（RGB预训练、时序微调、多波段微调）。

数据

作者构建了一个大规模的遥感图文指令数据集 EarthDial-Instruct，共包含 1111万条指令问答对，涵盖多种遥感传感器、分辨率和时间序列。

一、多模态遥感图像

数据涵盖了多种遥感成像模态，包括：

光学图像（RGB）：如 NAIP 航空影像、Sentinel-2、Landsat-8；
合成孔径雷达（SAR）：如 Sentinel-1；
多光谱和红外图像：包括 NIR、红外、Hyperspectral、RGBI 等；
多时间序列图像：支持双时相（bi-temporal）和多时相（multi-temporal）图像分析，用于变化检测、灾害识别等任务。

二、覆盖任务广泛

这些数据被设计用于训练视觉语言模型执行多种遥感任务，涵盖：

场景分类、目标检测、图像/区域描述
视觉问答（VQA）、多标签分类
变化检测、灾害评估、甲烷羽流识别
树种分类、城市热岛分析、地方气候区划分等

共覆盖 44 个下游任务，是目前遥感领域任务覆盖最广的数据集之一。

三、数据构建方式

数据构建采用自动化问答指令生成器（InternLM-XComposer2）生成图文对，同时结合了真实的地理标签（如 OpenStreetMap）以及多种质量控制手段，如：

标签筛选（保留至少包含3个标签的图像）
云和低覆盖区域过滤
根据对象位置、特征生成指令问答对
手动抽样检查生成质量，确保高质量训练样本

四、数据阶段划分

为了系统训练模型，作者将数据使用划分为三个阶段：

第一阶段用于预训练，主要是大规模 RGB 图像配对的问答数据；
第二阶段引入时间序列图像，进行时序任务微调；
第三阶段引入多光谱和 SAR 图像，拓展模型对复杂模态的处理能力。

方法

一、统一架构设计

EarthDial 使用一个统一的视觉-语言模型框架，能够处理多种遥感模态输入。模型由三个核心模块组成：

视觉编码器：用于提取遥感图像的特征；
特征投影层（MLP）：将视觉特征映射到语言模型可以理解的空间；
语言模型（LLM）：理解文本输入并生成任务响应。

整个系统支持输入不同类型的图像，包括光学、SAR、多光谱、时序图像等，并能执行包括分类、问答、检测、描述、定位在内的多种任务。

二、关键模块改进

为了适应遥感图像的特点，EarthDial设计了两个关键模块：

自适应高分辨率处理模块：将高分辨率图像切分为小块处理，并保留整体缩略图，用于保留细节与全局上下文信息；
数据融合模块：专为多光谱和多时相数据设计，支持多通道图像逐批处理和特征融合，提升多模态理解能力。

这些模块确保模型能够灵活应对不同分辨率和波段组合。

三、分阶段训练策略

EarthDial采用三阶段的训练方式，逐步增强模型对遥感数据的理解能力：

第一阶段：使用大量RGB遥感图像进行预训练，建立基础视觉语言对齐能力；
第二阶段：引入时间序列图像，对模型进行变化检测和时序任务的适应性训练；
第三阶段：进一步引入多光谱和SAR图像，通过特定的数据融合方法，拓展模型对复杂遥感模态的处理能力。

这种分阶段训练策略，使得模型能逐步适应遥感数据的复杂性。

四、任务提示与多模态对齐

在输入时，EarthDial采用了任务提示词和模态提示词，帮助模型区分当前任务类型和图像类型，从而实现不同遥感任务在统一架构下的处理。

通过视觉特征和文本指令的融合，EarthDial能够准确完成分类、检测、问答等多种遥感任务，并具备良好的泛化能力。

结果与分析

本文方法在多光谱无人机跟踪数据集上全面优于现有主流方法，表现出更强的鲁棒性和适应性。同时在多光谱和RGB通用数据集上也展现出良好的迁移能力，证明了其结构的通用性与效率。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述