多模态理论基础——什么是多模态？

模态指的是数据或者信息的表现形式，如文本、图像、音频、视频等多模态指的是数据或者信息的多种表现形式，一个信息，它可以存在多种表现形式。为什么会有多模态呢？因为人类有多种感官来处理信息：比如听觉、嗅觉、视觉、触觉、味觉等，它们都可以获取并且处理不同形式的信息。为了让计算机具备分析互联网数据的能力、模拟人类的认知方式，同时处理多个模态数据的多模态信息处理技术应运而生。

心之所向h

2282人浏览 · 2024-10-06 01:28:30

心之所向h · 2024-10-06 01:28:30 发布

文章目录

多模态理论
- 1.什么是多模态（multimodal）
- 2.深度学习中的多模态

多模态理论

1.什么是多模态（multimodal）

模态指的是数据或者信息的表现形式，如文本、图像、音频、视频等

多模态指的是数据或者信息的多种表现形式，一个信息，它可以存在多种表现形式。

“下雪”场景的多模态数据（视频、图像、音频、文本）

为什么会有多模态呢？

因为人类有多种感官来处理信息：比如听觉、嗅觉、视觉、触觉、味觉等，它们都可以获取并且处理不同形式的信息。

为了让计算机具备分析互联网数据的能力、模拟人类的认知方式，同时处理多个模态数据的多模态信息处理技术应运而生。

2.深度学习中的多模态

在目前的人工智能任务中，我们所说的多模态更多的指对于 3V 任务的支持，也即 Verbal(文本)、Vocal(语音) 和 Visual(视觉)。

深度学习中有很多经典的任务，都是基于这三种任务之间互相转换的。比如图像生成任务(Image Generation from Text)，根据文本描述生成图像，反过来的图像描述任务(Image Captioning)，根据图像来生成文本，就像是我们小学学的看图作文一样。

参考：5分钟理解什么是多模态-CSDN博客

NVIDIA AI 技术专区

分享最新的 NVIDIA AI Software 资源以及活动/会议信息，精选收录AI相关技术内容，欢迎大家加入社区并参与讨论。

更多推荐

cover

MiniMax M2.7 在 NVIDIA 平台上推进复杂 AI 应用的可扩展代理工作流程

NVIDIA AI 技术专区

cover

NVIDIA 认证 | 如何选考试？四大技术方向解读 11 门认证

NVIDIA AI 技术专区

cover

借助 NVIDIA Omniverse 库，将物理 AI 功能集成到现有应用中

NVIDIA AI 技术专区

所有评论(0)

查看更多评论

心之所向h

已为社区贡献1条内容