想搞懂H100？这篇告诉你英伟达GPU是咋设计的，文末还有资料打包送！

发菜君

3350人浏览 · 2025-07-12 14:28:38

发菜君 · 2025-07-12 14:28:38 发布

英伟达Hopper架构的H100\H200\H20是最近2年来智算中心建设最火的产品系列，很多朋友对于GPU的架构设计还不太了解，今天我们结合英伟达Hopper架构的白皮书（文末会分享给大家）和一些公开资料和大家展开聊聊！

一、GPU芯片的核心组成

我们知道H100 GPU有两个出货版本，分别是PCIe标准卡和SXM接口的卡（如图所示）；产品都是由PCB板子、GPU芯片、HBM显存颗粒及各类互联通道（PCIe5.0 x16和NVLink 4.0 x18）等部分组成。架构图如图所示：

其中互联通道、显存等对于GPU也非常重要，下面是H100的架构图

1、NVLink 4.0x18，实现GPU间通信，带宽高达900GB/s（双向）

2、PCIe 5.0x16是与CPU之间通信，以及PCIe版本的GPU间通信。

3、HBM是高带宽显存，6个通道最大带宽4.8TB/s

二、NVIDIA H100产品架构解析

如下图所示，完整版的GH100 GPU可以理解为设计图纸，最多可包含144个流式多处理器（SM）。而实际量产的H100 GPU并不是GH100完整版而是做了部分阉割，SXM5接口封装的版本包含132个SM，PCIe版本则缩减至114个SM。

完整的 GH100 GPU 架构包括以下单元：

1、8 个 GPC，每个GPC包括9个TPC，每个TPC包括2个SM，完整版GH100的SM数量是8x9x2=144个

2、每个 SM 内含 128 个 FP32 CUDA Core 核心、每个完整 GPU 内含 18432 个 FP32 CUDA Core 核心；

3、每个 SM 内含 4 个第四代 Tensor Core 核心、每个完整 GPU 内含 576 个第四代 Tensor Core 核心

4、6 个 HBM3 或 HBM2e 堆栈、12 个 512 位内存控制器

三、GPC、TPC和SM的定义和数量

1、GPC是GPU处理集群的意思，英文全称是GPU Processing Cluster

2、TPC是纹式处理集群的意思，英文全称是Texture Processing Cluster

3、SM是真正的核心组成，流式处理器，英文是Streaming Multiprocessor

四、H100的SM内部设计

SM是GPU内部的核心计算模块包括了我们经常提到的CUDA Core和Tensor Core，如图所示：

H100的每个CUDA core包含了一个INT 32、2个FP32和1个FP64计算单元。Hopper架构中，每个SM分为了四个象限，每个象限都包含了1个Tensor core和32个CUDA core，合计为4个Tensor core和128个CUDA core，可以根据SM的数量计算出来CUDA core和Tensor core的数量。144x128=18432、144x4=576；

GPU内部的数据访问速度排序

1、访问最快的是SM中每个象限的1KB大小的 Reister File

2、其次是每个象限中的L0指令的缓存

3、再次是每个SM中的256KB的L1 数据缓存

4、之后才是整颗芯片中的L2 Cache，由2个Bank组成

5、最后才是我们熟悉的HBM显存

五、NVIDIA H100产品重要升级点

Tensor 内存加速器 (TMA)：为了提升Tensor core的内存存取效率，NV在Hopper架构中引入了TMA技术，全称是张量存储加速器，Tensor Memory Accelerator，目的是提升Tensor core的内存交换效率。

TMA可以让Tensor core使用张量维度和块坐标指定数据的传输，不再简单的按照数据地址寻址，使得在矩阵分割等场景中能够进一步提升寻址效率，工作原理图如下：

在A100中线程需要生成矩阵的子矩阵中各行数据所在的地址，并且执行所有的数据复制任务，Hopper 架构H100引入的TMA可以自动生成矩阵中各行的地址序列，接管数据复制任务，将线程解放出来用于更有价值的计算任务。

六、如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

NVIDIA AI 技术专区

分享最新的 NVIDIA AI Software 资源以及活动/会议信息，精选收录AI相关技术内容，欢迎大家加入社区并参与讨论。

更多推荐

使用端到端 FP8 精度运行高吞吐量强化学习训练

NVIDIA AI 技术专区

NVIDIA AI 培训班 | 5 月 14 日开课：利用提示工程构建大语言模型应用

NVIDIA AI 技术专区

NVIDIA AI 培训班 | 6 月 4 日开课：构建基于大语言模型的应用

NVIDIA 深度学习培训中心（DLI）提供的《构建基于大语言模型的应用》 AI 培训班即将开课，由 NVIDIA 认证讲师全天实时中文授课和答疑，配合云端实验环境的动手实操帮助每位学员深入理解 LLM 应用开发并积累实践经验，从而快速投入实际开发工作。无论是个人技能跃升还是团队能力建设，NVIDIA 深度学习培训中心（DLI）的生成式 AI 认证学习路径都能为您提供系统支撑 —— 从认证科目选择