登录社区云,与社区用户共同成长
邀请您加入社区
NVIDIA 面向数据中心多节点环境的开源分布式推理服务框架 Dynamo 的组件 AIConfigurator 和 Grove,分享它们分别如何解决 PD 分离架构下大模型推理的两个核心落地难题:在庞大配置空间中高效寻优,以及在 Kubernetes 上优雅编排多组件推理服务。P/D 分离的抉择,到 Prefill/Decode 资源的配比,再到并行策略的设定,庞大的参数空间使得人工调优如同大海
现在,您拥有一个由 Nemotron 驱动的智能体核心结构,该结构由四个核心组件组成:用于语音交互的语音 ASR、用于实现信息真实性的多模态 RAG、考虑文化差异的多语言内容安全过滤,以及用于长上下文推理的 Nemotron 3 Nano。每一层都有自己的接口、延迟限制和集成挑战,一旦跨过简单的原型就会开始感受到这些挑战。您可以在本地 GPU 上进行开发,然后将相同的代码部署到可扩展的 NVIDI
领先科技企业例如博世、CodeRabbit、CrowdStrike、Cohesity、Fortinet、Franka Robotics、Humanoid、Palantir、Salesforce、ServiceNow、日立和 Uber 等,正在使用并基于 NVIDIA 的开放模型技术进行开发。在 Hugging Face 平台上,机器人技术是增长较快的领域,开发安全、可规模化的辅助驾驶依赖于 AI
这一全新开放模型系列引入了开放的混合 Mamba-Transformer MoE 架构,使多智能体系统能够进行快速长上下文推理。2025年 12月 15日和系统日益依赖协同运行的智能体集合,包含检索器、规划器、工具执行器、验证器等,它们需在大规模上下文上长时间协同工作。这类系统需要能够提供快速吞吐、高精度及大规模输入持续一致性的模型。它们也需要一定的开放性,使开发者能够在任意运行环境定制、扩展和部
NVIDIA 于 12 月 15 日宣布推出 NVIDIA Nemotron™ 3 系列开放模型、数据和库,为各个行业透明、高效的专业代理式 AI 开发提供助力。Nemotron 3 模型提供 Nano、Super 和 Ultra 三种规模,采用突破性的架构,帮助开发者大规模开发并部署可靠的多智能体系统。随着企业从单模型对话机器人转向协作式多智能体 AI 系统,开发者面临着日益严峻的挑战,包括通信
Mistral Large 3 是专家混合 (MoE) 模型,无需为每个 token 激活全部神经元,可以仅调用模型中影响最大的部分,既可在无浪费的前提下实现高效扩展,又可确保准确性不受损,使企业级 AI 不仅成为可能,而且更具实用性。通过整合 NVIDIA Grace Blackwell 机架级扩展系统与 Mistral AI 的 MoE 架构,企业可借助先进的并行计算与硬件优化技术,高效部署并
NVIDIA 的开放模型系列,包括面向数字 AI 的 NVIDIA Nemotron、面向物理 AI 的 Cosmos、面向机器人开发的 Isaac GR00T 以及面向生物医学 AI 的 Clara,为开发者提供了为现实世界应用构建专用智能体的基础。NVIDIA 秉持对开源的长期承诺,推出了面向语言、机器人和生物学的全新开源 AI 技术,为构建开源生态系统做出贡献,扩展 AI 的普及并推动创新。
未来,NVIDIA 技术专家团队将持续关注 MiniMax 系列模型的演进方向,围绕大模型训推效率与系统级性能优化,深入探索更多加速技术路径的研究与实践,包括新一代低精度策略、更高效的算子融合方案,以及对 NVIDIA 新一代 GPU 架构特性的适配与支持,进一步挖掘 MiniMax 模型在不同应用场景下的性能潜力。欢迎通过PR15032了解如何使用 TensorRT LLM 部署 MiniMax
在这个过程中,零一万物基于 NVIDIA 软硬结合的技术栈,在功能开发、调试和性能层面,与 NVIDIA 团队合作优化,完成了在大模型的 FP8 训练和验证。在此基础上,零一万物团队进一步的设计了训练容错方案:由于没有 BF16 的 baseline 来检查千亿模型 FP8 训练的 loss 下降是否正常,于是,每间隔一定的步数,同时使用 FP8 和 BF16 进行训练,并根据 BF16 和 FP
过往,许多用户在将 TensorRT-LLM 集成到自身软件栈的过程中,总是希望能更好地了解 TensorRT-LLM 的 Roadmap。即日起,NVIDIA 正式对外公开 TensorRT-LLM 的 Roadmap ,旨在帮助用户更好地规划产品开发方向。近期,我们收到了许多用户的积极反馈,并表示,TensorRT-LLM 不仅显著提升了性能表现,还成功地将其应用集成到各自的业务中。这不仅有助