AI Software专栏_NVIDIA AI 技术专区

AI Software

AI Software

62篇内容

NVIDIA Tensor Core演进：从Volta到Blackwell的技术革命

在人工智能和深度学习的快速发展浪潮中，GPU计算能力的提升一直是推动整个行业前进的核心动力。NVIDIA的Tensor Core技术作为现代AI计算的基石，从Volta架构首次引入到最新的Blackwell架构，经历了一场深刻的技术革命。本文将深入探讨这一演进过程，揭示其背后的技术原理、设计哲学和未来发展方向。

3699 

79 

扫地的小何尚 · 2025-06-25 11:18:04

Hot Chips 大会热门主题：各种规模的推理、网络和 AI 创新都源于 NVIDIA

全球已有数亿台的 GPU 运行 CUDA，从 NVIDIA Blackwell 架构规模的系统到搭载 GeForce RTX 和 NVIDIA RTX PRO 的 PC 和工作站，包括由 NVIDIA GB10 提供支持的 NVIDIA DGX Spark（在 Skende 的会议中讨论过的）也即将发布。DGX Spark 用小巧的机身提供了强大的性能和功能，使开发者、研究人员、数据科学家和学生能

1016 

NVIDIA AI 技术专区 · 2025-09-05 14:33:21

利用 CPO 技术扩展 AI 工厂，提高能效

敬请期待本博客的第二部分，我们将深入探讨 NVIDIA Quantum-X Photonics 和 Spectrum-X Photonics 平台的核心——硅光引擎的架构与工作原理，揭示推动下一代光连接成为现实的关键创新与工程突破。大量的独立模块和连接不仅推高了系统功耗和组件数量，还直接影响了链路的可靠性，随着 AI 部署规模的不断扩大，这些问题将带来持续的运营挑战。在这篇博客中，我们将探讨 NV

819 

NVIDIA AI 技术专区 · 2025-09-05 14:30:29

NVIDIA 推出 Spectrum-XGS 以太网，助力分布式数据中心迈入十亿瓦级 AI 超级工厂

凭借先进的、自动调节的远距离拥塞控制、精准延迟管理及端到端遥测技术，Spectrum-XGS 以太网将 NVIDIA 集合通信库性能提升了近一倍，加速了多 GPU 和多节点的通信性能，实现了可预测异地 AI 集群的性能。跨区域扩展（scale-across）成为了继纵向扩展（scale-up）和横向扩展（scale-out）之后的 AI 计算“第三大支柱”，能够将 Spectrum-X 以太网的极

375 

NVIDIA AI 技术专区 · 2025-09-05 14:28:19

迎接十亿瓦数据中心时代

投入端到端集成的供应商能提供更优的延迟和吞吐量。SONiC 作为在超大规模数据中心中得到强化的开源网络操作系统，消除了许可限制和供应商锁定，支持高度定制化，但操作人员仍会选择专为 AI 性能需求设计的硬件和软件捆绑方案。基于 Spectrum-4 ASIC 的 SN5610 交换机支持高达 800 Gb/s 的端口速度，并通过 NVIDIA 的拥塞控制技术，在规模化场景下可保持 95% 的数据吞吐

961 

25 

NVIDIA AI 技术专区 · 2025-09-05 14:27:16

DeepSeek R1 MTP 在 TensorRT-LLM 中的实现与优化

TensorRT-LLM 在 NVIDIA Blackwell GPU 上创下了 DeepSeek-R1 推理性能的世界纪录，Multi-Token Prediction (MTP) 实现了大幅提速。我们在之前的博客[1] 中介绍了 DeepSeek-R1 模型实现超低推理延迟的关键优化措施。本文将深入探讨 TensorRT-LLM 中的 MTP 实现与优化。受先前研究工作的启发，MTP 用于辅助

899 

NVIDIA AI 技术专区 · 2025-09-05 11:46:07

如何使用FP8加速大模型训练

在这个过程中，零一万物基于 NVIDIA 软硬结合的技术栈，在功能开发、调试和性能层面，与 NVIDIA 团队合作优化，完成了在大模型的 FP8 训练和验证。在此基础上，零一万物团队进一步的设计了训练容错方案：由于没有 BF16 的 baseline 来检查千亿模型 FP8 训练的 loss 下降是否正常，于是，每间隔一定的步数，同时使用 FP8 和 BF16 进行训练，并根据 BF16 和 FP

978 

NVIDIA AI 技术专区 · 2025-02-05 14:27:22

NVIDIA TensorRT-LLM Roadmap 现已在 GitHub 上公开发布！

过往，许多用户在将 TensorRT-LLM 集成到自身软件栈的过程中，总是希望能更好地了解 TensorRT-LLM 的 Roadmap。即日起，NVIDIA 正式对外公开 TensorRT-LLM 的 Roadmap ，旨在帮助用户更好地规划产品开发方向。近期，我们收到了许多用户的积极反馈，并表示，TensorRT-LLM 不仅显著提升了性能表现，还成功地将其应用集成到各自的业务中。这不仅有助

1109 

NVIDIA AI 技术专区 · 2025-02-05 16:25:45

全新 Qwen3-Next 开源模型预览：MoE 架构在 NVIDIA 平台实现更高精度与加速并行处理速度

每个模型总参数规模达 800 亿，但凭借其稀疏 MoE 结构，每个 Token 仅激活 30 亿参数，从而以小模型的效率实现了大模型的强大性能。在 Open Router 上体验：Qwen3-Next-80B-A3B-Thinking 和 Qwen3-Next-80B-A3B-Instruct，或者从 Hugging Face 下载：Qwen3-Next-80B-A3B-Thinking 和 Qw

950 

NVIDIA AI 技术专区 · 2025-09-15 21:55:25

NVIDIA Nemotron Nano 2 及 Nemotron 预训练数据集 v1

Nemotron-CC-v2：此前研究表明，从高质量英文网页爬取数据生成的合成多样化问答数据，能显著提升大语言模型 (LLM) 通用能力（如 MMLU 等基准测试显示）。如“NVIDIA Nemotron Nano 2：准确、高效的混合 Mamba-Transformer 推理模型”技术报告所示，推理模型 NVIDIA-Nemotron-Nano-v2-9B 在复杂推理基准测试中，实现了与领先的同

1076 

16 

NVIDIA AI 技术专区 · 2025-08-26 16:55:09