登录社区云,与社区用户共同成长
邀请您加入社区
在人工智能和深度学习的快速发展浪潮中,GPU计算能力的提升一直是推动整个行业前进的核心动力。NVIDIA的Tensor Core技术作为现代AI计算的基石,从Volta架构首次引入到最新的Blackwell架构,经历了一场深刻的技术革命。本文将深入探讨这一演进过程,揭示其背后的技术原理、设计哲学和未来发展方向。
全球已有数亿台的 GPU 运行 CUDA,从 NVIDIA Blackwell 架构规模的系统到搭载 GeForce RTX 和 NVIDIA RTX PRO 的 PC 和工作站,包括由 NVIDIA GB10 提供支持的 NVIDIA DGX Spark(在 Skende 的会议中讨论过的)也即将发布。DGX Spark 用小巧的机身提供了强大的性能和功能,使开发者、研究人员、数据科学家和学生能
敬请期待本博客的第二部分,我们将深入探讨 NVIDIA Quantum-X Photonics 和 Spectrum-X Photonics 平台的核心——硅光引擎的架构与工作原理,揭示推动下一代光连接成为现实的关键创新与工程突破。大量的独立模块和连接不仅推高了系统功耗和组件数量,还直接影响了链路的可靠性,随着 AI 部署规模的不断扩大,这些问题将带来持续的运营挑战。在这篇博客中,我们将探讨 NV
凭借先进的、自动调节的远距离拥塞控制、精准延迟管理及端到端遥测技术,Spectrum-XGS 以太网将 NVIDIA 集合通信库性能提升了近一倍,加速了多 GPU 和多节点的通信性能,实现了可预测异地 AI 集群的性能。跨区域扩展(scale-across)成为了继纵向扩展(scale-up)和横向扩展(scale-out)之后的 AI 计算“第三大支柱”,能够将 Spectrum-X 以太网的极
投入端到端集成的供应商能提供更优的延迟和吞吐量。SONiC 作为在超大规模数据中心中得到强化的开源网络操作系统,消除了许可限制和供应商锁定,支持高度定制化,但操作人员仍会选择专为 AI 性能需求设计的硬件和软件捆绑方案。基于 Spectrum-4 ASIC 的 SN5610 交换机支持高达 800 Gb/s 的端口速度,并通过 NVIDIA 的拥塞控制技术,在规模化场景下可保持 95% 的数据吞吐
TensorRT-LLM 在 NVIDIA Blackwell GPU 上创下了 DeepSeek-R1 推理性能的世界纪录,Multi-Token Prediction (MTP) 实现了大幅提速。我们在之前的博客[1] 中介绍了 DeepSeek-R1 模型实现超低推理延迟的关键优化措施。本文将深入探讨 TensorRT-LLM 中的 MTP 实现与优化。受先前研究工作的启发,MTP 用于辅助
在这个过程中,零一万物基于 NVIDIA 软硬结合的技术栈,在功能开发、调试和性能层面,与 NVIDIA 团队合作优化,完成了在大模型的 FP8 训练和验证。在此基础上,零一万物团队进一步的设计了训练容错方案:由于没有 BF16 的 baseline 来检查千亿模型 FP8 训练的 loss 下降是否正常,于是,每间隔一定的步数,同时使用 FP8 和 BF16 进行训练,并根据 BF16 和 FP
过往,许多用户在将 TensorRT-LLM 集成到自身软件栈的过程中,总是希望能更好地了解 TensorRT-LLM 的 Roadmap。即日起,NVIDIA 正式对外公开 TensorRT-LLM 的 Roadmap ,旨在帮助用户更好地规划产品开发方向。近期,我们收到了许多用户的积极反馈,并表示,TensorRT-LLM 不仅显著提升了性能表现,还成功地将其应用集成到各自的业务中。这不仅有助
每个模型总参数规模达 800 亿,但凭借其稀疏 MoE 结构,每个 Token 仅激活 30 亿参数,从而以小模型的效率实现了大模型的强大性能。在 Open Router 上体验:Qwen3-Next-80B-A3B-Thinking 和 Qwen3-Next-80B-A3B-Instruct,或者从 Hugging Face 下载:Qwen3-Next-80B-A3B-Thinking 和 Qw
Nemotron-CC-v2:此前研究表明,从高质量英文网页爬取数据生成的合成多样化问答数据,能显著提升大语言模型 (LLM) 通用能力(如 MMLU 等基准测试显示)。如“NVIDIA Nemotron Nano 2:准确、高效的混合 Mamba-Transformer 推理模型”技术报告所示,推理模型 NVIDIA-Nemotron-Nano-v2-9B 在复杂推理基准测试中,实现了与领先的同