多模态知识图谱入门到精通：构建与应用全解析，收藏这篇就够了！

近年来，以知识图的快速增长为特征的知识工程重新兴起。然而，大多数现有的知识图都是用**纯符号**表示的，这损害了机器理解现实世界的能力。**多模态知识图(MMKGs)**是实现人类水平的机器智能不可避免的关键一步。本文对文本和图像构建的MMKGs进行了研究，首先给出了MMKGs的定义，然后对多模态任务和技术进行了初步探讨。然后，我们系统地回顾了MMKGs的建设和应用所面临的挑战、进展和机遇，并详细

Python编程杰哥

2172人浏览 · 2025-09-12 22:54:41

Python编程杰哥 · 2025-09-12 22:54:41 发布

摘要

近年来，以知识图的快速增长为特征的知识工程重新兴起。然而，大多数现有的知识图都是用纯符号表示的，这损害了机器理解现实世界的能力。**多模态知识图(MMKGs)**是实现人类水平的机器智能不可避免的关键一步。本文对文本和图像构建的MMKGs进行了研究，首先给出了MMKGs的定义，然后对多模态任务和技术进行了初步探讨。然后，我们系统地回顾了MMKGs的建设和应用所面临的挑战、进展和机遇，并详细分析了不同解决方案的优缺点。我们以与MMKGs相关的开放研究问题来完成这项调查。

[ 核心内容总结 ]

（1）本文首先介绍了传统知识图谱的定义，并介绍其局限性；

（2）介绍多模态知识图谱（MMKG）的定义，表示MMKG将符号知识与图像、音频、视频等模态关联，为多模态任务提供技术支撑；

（3）介绍MMKG的类型与定义，A-MMKG和 N-MMKG，并给出相关实例，分别概述两种方法的适用领域和优缺点；

（4）详细介绍构建从图像到符号、从符号到图像的构建方法，以及关键技术，给出实例与建议；

（5）比较了主流MMKG所包含的内容和构造方式，分析了不同解决方案在MMKG构建和应用中的优缺点。

多模态知识图谱的介绍

2.1 知识图谱的定义

**传统的知识图(KG)**定义为有向图G = {E, R, A, V，TR，TA}，其中E, R, A, V是实体、关系、属性和文字属性值的集合，TR= E ×R ×E和TA= E ×A ×V分别是关系三元组和属性三元组的集合。

三元组(s,p, o)∈TR表示实体s∈E与实体o∈E有关系p∈R。

三元组(s, p, o)∈TA表示实体s∈E有一个属性p∈A，属性值o∈V。

**多模态知识图(Multi-modal Knowledge Graph, MMKG)**可以看作是一个多模态的KG，其中{E, R, A, V，TR，TA}中的部分知识是多模态的。如果一个知识符号与可以体现知识的文本以外的模态(如图像、声音或视频)中的相应数据项相关联，则该知识符号是多模态的。

关系三元组(s, p, o)可以用描述s和o之间关系p的图像进行多模态化。

2.2 多模态知识图谱的分类

关于MMKG的现有工作主要采用两种不同的方式来表示MMKG。一种方法将多模态数据(本调查中的图像)作为实体或概念的特定属性值，如图1(a)所示。我们将以这种方式表示的MMKG简称为A-MMKG。

表示为G = {E, R, A, V,TR,TA}，其中

是属性三元组的集合，VKG是KG属性值的集合，VMM是多模态数据的集合。

在A - MMKGs中，由于多模态数据被视为属性值，因此在三元组(s,p,o)中，s表示实体，o表示其对应的多模态数据之一，当o为图像时，关系p为“hasImage”。

第二种方法是将多模态数据作为KG中的实体，我们将以这种方式表示的MMKG简称为N-MMKG，如图1(b)所示。

表示为G = {E,R,A,V,TR,TA}，其中

是关系三元组的集合，εKG是KG实体的集合，εMM是多模态数据的集合。

两个图像关系:

1）包含：一个图像实体通过图像的相对位置在视觉上包含另一个图像实体；

2）nearBy：一个图像实体在图像中视觉上靠近另一个图像实体；

3）sameAs：两个不同的图像实体指的是相同的实体；

4）相似：两个图像实体在视觉上彼此相似。

图1 A-MMKG和N-MMKG两种不同类型的mmkg示例

图2 不同类型MMKG中的RDF三元组示例

2.2 多模态知识图谱的作用

1）提供了足够的背景知识

2）能够理解图像之间的抽象关系

3）支持多模态可解释推理

4）提供多模态数据作为附加特征，以弥补某些NLP（自然语言处理）任务中的信息缺口

5）提供显式和细粒度的跨模态相关知识

多模态知识图谱的构建

3.1 从图像到符号:标记图像

图像与符号的链接过程可以分为几个细分的任务:视觉实体/概念提取、视觉关系提取和视觉事件提取。3.1.1****视觉实体/概念提取

**目的：**检测和定位图像中的目标视觉物体，然后用KG中的实体(或概念)符号标记这些物体

**挑战：**数据集几乎都是粗粒度的概念图像，无法满足MMKG构建对细粒度概念和实体图像标注数据的要求。

方法：

1）对象识别方法

预先训练的检测器和分类器用它们在图像中的位置来标记视觉实体(以及属性和场景)。

**数据来源：**公共图像-文本数据集 ( 如 MSCOCO ， Flickr30k ，Flick30k Entities 和Open图像等）

**缺点：**只有有限数量的视觉实体在预定义的标签下可以被识别。细粒度识别需要大量的预处理工作，比如预定义的规则、预训练的细粒度检测器等。

2）视觉接地方法

视觉实体提取问题被简化为一个开放域的视觉接地问题，其目的是定位标题中每个短语对应的图像区域，以获得带有其标签的视觉对象。

根据空间热图选择给定单词的活动像素作为视觉对象的区域

图3 通过视觉接地在两个示例图像中检测到的视觉实体(士兵和船只)的热图，其中像素与单词之间的相关性越强，像素的颜色越温暖。

在跨模态统一向量空间中，可以通过基于注意力的方法和基于显著性的方法来学习每个短语的热图

图4 两种弱监督的视觉实体提取:(a)基于注意力的方法和基

于显著性的方法。第一种方法选择与给定短语最相关的边界框。第二种方法选择对给定短语最敏感的像素。

基于显著性的方法将像素通过梯度计算对给定短语的边际效应视为热图值，而基于注意力的方法将跨模态相关性视为热图值。然而，由于一些显著性方法对输入变化过于敏感，无法产生可靠的结果，因此在定位视觉对象方面，基于注意力的方法比基于显著性的方法得到了更多的研究。

3.1.2****视觉关系提取

**目的：**识别图像中被检测到的视觉实体(或概念)之间的语义关系，并用KGs标记这些关系。

**挑战：**大多数检测到的关系都是视觉对象之间的表面视觉关系，例如(人，站在，海滩)。为了构建MMKG，视觉关系提取任务旨在识别KGs中定义的更一般类型的语义关系，例如(Jack、spouse、Rose)。

方法：

1）基于规则的关系提取

关注特定的关系类型，如空间关系和动作关系。专家通常预先定义标准，并通过启发式方法对判别原生特征进行评分和选择。

**缺点：**提供了高度精确的视觉关系需要大量的人工操作，这在大规模的MMKG构建中不太实用。

表1 视觉关系示例

2）基于统计的一般关系提取

基于统计的方法将检测对象的视觉、空间、统计等特征编码为分布式向量，并通过分类模型预测给定对象之间的关系。

与基于规则的方法不同，基于统计的方法可以检测训练集中的所有关系。

3.1.3****视觉事件提取

**目的：**1)预测视觉事件类型；2)定位和提取源图像或视频中的对象作为视觉参数。

**挑战：**1)视觉事件提取需要针对不同的事件类型预先定义模式，但是有大量的视觉事件是专家没有定义的。如何将视觉模式自动挖掘为事件模式。2)如何从

图像或视频中提取一个视觉事件的视觉参数。

方法：

1）视觉事件模式挖掘

从给定事件的图像中找到指示正确事件类型的视觉模式的频繁项集。

**方法：1）**事件的图像集合可以从带有事件触发器的图像标题对中检索作为查询；

2**）**标题中的单词或短语通过视觉接地来标记候选图像补丁；

**3）**启发式方法(例如，Apriori算法)可用于挖掘频繁的视觉图像补丁，以找到通过视觉模式预测事件类型的关联规则。

2）视觉事件参数提取

提取一组具有关系约束的视觉对象。根据图像的全局特征对事件类型进行分类，并通过对象识别或视觉接地将事件参数提取为对事件类型最敏感的区域。

视觉和文本参数中的关系也应该对齐，以确保视觉对象之间的关系与文本中的关系一致。

**挑战：****1）**从包含多个事件的长视频中提取连续事件的问题尚未得到解决；

**2）**包含多个子事件的视频事件提取。

3.2 从符号到图像:符号接地

符号接地是指在给定的KG(如实体、概念或关系三元组)中，寻找合适的多模态数据项(如图像)来描述符号知识的过程。

对图像进行接地符号的过程:实体接地，概念接地和关系接地。

3.2.1****实体接地

**目的：**将KG中的实体接地到它们相应的多模态数据，如图像、视频和音频。现有的工作主要集中在将实体接地到其对应的图像上。

**挑战：****1）**如何以低成本为实体找到足够多的高质量图像；

**2）**如何从众多噪声中选择与实体最匹配的图像。

方法：

1）来自在线百科全书

维基百科和DBpe-dia提供了许多工具(如Wikimedia Commons)来帮助建立DBpedia中的实体与维基百科中其他形式的相应图像或数据之间的连接。

**缺点：****1）**并非所有实体都附加到在线百科全书中的许多高质量图像上；

**2）**维基百科中许多实体的图像只是间接地与该实体相关，而不能准确地表示该实体；

**3）**不可视觉化实体的图像可能会带来错误；

**4）**仅从维基百科构建的MMKG的覆盖范围仍然需要改进。

2）来自搜索引擎

通过指定实体名称作为查询，从商业搜索引擎的搜索结果中找到图像，其中排名靠前的图像更有可能是正确的图像的搜索实体。

与基于维基百科的方法相比，基于搜索引擎的方法显著提高了MMKG的覆盖率。

**缺点：****1）**容易将噪声图像引入MMKG中；

**2）**在覆盖范围上更好，但质量更差；

图5 用可视化实体提取方法难以区分的例子。(a)相似的视觉实体:Natalie Portman和Keira Knightley;(b)相似的视觉概念:消防员和垃圾收集者。

3.2.2****概念接地

**目的：**为视觉概念寻找具有代表性、辨别性和多样性的图像。

**挑战：1）**如何区分可可视化的概念和不可可视化的概念；

**2）**如何从一组相关图像中找到一个可可视化概念的代表性图像。

方法：

1）视觉事件模式挖掘

从给定事件的图像中找到指示正确事件类型的视觉模式的频繁项集。

**任务：****1）**可视化概念判断。该任务旨在自动判断可可视化的概念，是一个有待解决的新任务。

**2）**代表性图像选择(Representative Image Selection)。根据图像的代表性对其进行重新排序；

**3）**图像多样化(Image Diversification)。该任务要求概念所基于的图像应平衡多样性和相关性。

未来研究方向：

1）抽象概念接地。抽象概念也可以以图像为基础。

快乐通常与微笑联系在一起，而愤怒通常与愤怒的脸联系在一起。一些抽象名词具有多样但固定的视觉关联，如自然、人类和行动。

2）动名词概念接地。通过众包(crowdsourcing)将许多动名词与意象联系起来。

动名词是一类可以转化为动词的特殊名词，比如singing→sing。

3）通过实体接地实现不可可视化的概念接地。如果一个概念是不可可视化的，但它的下义词实体可以被可视化，那么这个概念也可以通过它的实体来建立基础。

例如，为这样一个概念合理选择基础图像是使用该概念最典型实体的图像。

表2 可视化概念接地和非可视化概念接地的例子。可可视化的概念Surgeon可以建立在医生穿着手术服在手术室做手术的照片上，而不可可视化的概念physics可以建立在爱因斯坦的照片上，因为爱因斯坦是物理学家的典型实体

3.2.3关系****接地

**目的：**输入是该关系的一个或多个三元组，输出预计是该关系排名靠前的代表性图像。

**挑战：**如何找到能够反映输入三元组语义关系的图像。

图6 关系基础通常被认为是一个细粒度的文本-图像检索问题。查询是一个或多个三元组，期望的图像应该与查询中的实体和关系一致。

**方法：**关系基础可以建模为一个细粒度的文本-图像检索问题，其中三元组(主题、关系、对象)是查询，候选图像用提取的场景图的隐式或显式结构信息表示。

多模态知识图谱的应用

分为****KG内应用，KG外应用和域应用

4.1 In-MMKG应用程序

In - MMKG应用包括链路预测，三级分类，实体分类和实体对齐。

4.1.1****链路预测

**目的：**在当h, r, t中的一个实体缺失时完成一个三重(h, r, t)，即(?,r, t)预测h或在(h,r,?)中预测t。类似的任务是预测两个给定实体之间的缺失关系，即预测(h，?, t)中的r。

**挑战：**MMKG构建了三个数据集来预测实体之间的多关系链接，所有实体都与数字和视觉数据相关联。但只关注相同链接预测任务，并回答MMKG完成的此类查询。

**4.1.**2 三重分类

**目的：**区分正确的三元组和不正确的三元组。

**方法：**基于在MMKG上学习到的嵌入模型，可以计算出每个三元组的能量评分E(h, r,t)。对每个关系r设置不同的阈值δr，如果能量评分高于δr，则预测为负三元组。在分类模型中，通过替换h、r、t中的一个来生成负数据，会破坏正确的三元组。

**4.1.**3 实体分类

**目的：**将实体划分为语义类别，即MMKG中不同粒度的概念。

**挑战：**如果没有一个好的MMKG嵌入模型，就不能充分利用MMKG中实体和概念的丰富多模态数据。

**4.1.**4 实体对齐

**目的：**对齐在不同MMKGs中引用相同真实身份的实体。当有重叠时，将两个MMKGs集成为一个是可行的方法。

**核心思想：**核心思想是学习不同KGs中实体的表示，然后评估两个KGs之间每个实体对之间的相似性。

4.2 OUT-MMKG应用程序

KG外应用程序是指不受MMKG边界限制，但可以由它们辅助的下游应用程序。

4.2.1****多模态实体识别与链接

应用：****多模态实体识别从带有图像的文本中检测实体的工作被定义为多模态NER (MNER)，其中图像可以为实体识别提供必要的补充信息。

多模态实体链接(multi-modal entity linking, MEL)使用文本和视觉信息将文本中的模糊提及映射到给定KG中的实体。

**方法：**1）提供该实体所提到的目标实体；

2）使用多模态数据学习每个实体的分布式表示，然后使用这些数据来度量提及和实体之间的相关性。

**4.2.**2 图像-文本匹配

**应用：**输出输入图像和文本对之间的语义相似度评分。

**方法：**利用多标签检测模块提取语义概念，然后将这些概念与图像的全局上下文融合。

4.2.3****多模态生成任务

**应用：**视觉文本生成任务，如图像标记、图像字幕、视觉叙述等。

图像标记。

**传统方法局限性：**传统的图像标注方法受到分布偏倚、噪声和标注不精确的限制。

**MMKG优势：**MMKGs不仅建立了组织良好的概念分类(如同义词、上义词和下义词)，而且为概念提供了相应的代表性和判别性的原生图像，从而极大地缓解了标签分布偏差和噪声标签的影响。

图片字幕。

**传统方法局限性：**主流的基于统计的图像字幕模型有两个弱点：1）依赖于目标检测器的性能；2）无法描述看不见的物体和概念。

**MMKG优势：**MMKG可以通过以下方式进行优化：1）利用MMKG进行关系推理，从而产生更准确、更合理的标题；2）MMKGs中的符号知识可以使不可见对象得到理解。

**视觉叙事。**旨在根据几个连续的图像来讲述故事。需要发现图像和与图像相关的物体之间的关系。

**传统方法缺点：**1）将该任务视为顺序图像字幕问题，而忽略图像之间的关系，这可能会产生单调的故事；2）这些方法仅限于单个训练数据集中的词汇和知识。

**MMKG优势：**MMKG在从每个图像中提取一组单词后，对来自两个连续图像的所有单词进行配对，以查询MMKG(例如Visual Genome)，以丰富可能的三元组。

如何学习大模型 AI ？

我国在AI大模型领域面临人才短缺，数量与质量均落后于发达国家。2023年，人才缺口已超百万，凸显培养不足。随着Al技术飞速发展，预计到2025年，这一缺口将急剧扩大至400万，严重制约我国Al产业的创新步伐。加强人才培养，优化教育体系，国际合作并进，是破解困局、推动AI发展的关键。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

2025最新大模型学习路线

明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛，没有明确的学习路线可能会导致新人感到迷茫，不知道应该专注于哪些内容。

对于从来没有接触过AI大模型的同学，我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。

在这里插入图片描述

针对以上大模型的学习路线我们也整理了对应的学习视频教程，和配套的学习资料。

大模型经典PDF书籍

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路！

在这里插入图片描述

配套大模型项目实战

所有视频教程所涉及的实战项目和项目源码等
在这里插入图片描述

博主介绍＋AI项目案例集锦

MoPaaS专注于Al技术能力建设与应用场景开发，与智学优课联合孵化，培养适合未来发展需求的技术性人才和应用型领袖。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

为什么要学习大模型？

2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

在这里插入图片描述

适合人群

在校学生：包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础，有志于深入AGI大模型行业，希望开展相关的研究和开发工作。
IT行业从业人员：包括在职或失业者，涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验，至少1年以上的编程工作经验，对大模型技术感兴趣或有业务需求，希望通过课程提升自身在IT领域的竞争力。
IT管理及技术研究领域人员：包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势，主导技术创新，推动大模型技术在企业业务中的应用与改造。
传统AI从业人员：包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作，现需要快速补充大模型技术能力，获得大模型训练微调的实操技能，以适应新的技术发展趋势。

课程精彩瞬间

大模型核心原理与Prompt：掌握大语言模型的核心知识，了解行业应用与趋势；熟练Python编程，提升提示工程技能，为Al应用开发打下坚实基础。

RAG应用开发工程：掌握RAG应用开发全流程，理解前沿技术，提升商业化分析与优化能力，通过实战项目加深理解与应用。

Agent应用架构进阶实践：掌握大模型Agent技术的核心原理与实践应用，能够独立完成Agent系统的设计与开发，提升多智能体协同与复杂任务处理的能力，为AI产品的创新与优化提供有力支持。

模型微调与私有化大模型：掌握大模型微调与私有化部署技能，提升模型优化与部署能力，为大模型项目落地打下坚实基础。

顶尖师资，深耕AI大模型前沿技术

实战专家亲授，让你少走弯路
在这里插入图片描述

一对一学习规划，职业生涯指导

真实商业项目实训

大厂绿色直通车

人才库优秀学员参与真实商业项目实训

以商业交付标准作为学习标准，具备真实大模型项目实践操作经验可写入简历，支持项目背调

大厂绿色直通车，冲击行业高薪岗位

文中涉及到的完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

NVIDIA AI 技术专区

分享最新的 NVIDIA AI Software 资源以及活动/会议信息，精选收录AI相关技术内容，欢迎大家加入社区并参与讨论。

更多推荐

使用端到端 FP8 精度运行高吞吐量强化学习训练

NVIDIA AI 技术专区

NVIDIA AI 培训班 | 5 月 14 日开课：利用提示工程构建大语言模型应用

NVIDIA AI 技术专区

NVIDIA AI 培训班 | 6 月 4 日开课：构建基于大语言模型的应用

NVIDIA 深度学习培训中心（DLI）提供的《构建基于大语言模型的应用》 AI 培训班即将开课，由 NVIDIA 认证讲师全天实时中文授课和答疑，配合云端实验环境的动手实操帮助每位学员深入理解 LLM 应用开发并积累实践经验，从而快速投入实际开发工作。无论是个人技能跃升还是团队能力建设，NVIDIA 深度学习培训中心（DLI）的生成式 AI 认证学习路径都能为您提供系统支撑 —— 从认证科目选择