MiniMax M2.7 在 NVIDIA 平台上推进复杂 AI 应用的可扩展代理工作流程

NVIDIA AI 技术专区

700人浏览 · 2026-04-17 11:07:23

NVIDIA AI 技术专区 · 2026-04-17 11:07:23 发布

MiniMax M2.7 的发布为流行的 MiniMax M2.7 模型增加了增强功能，该模型专为代理式线束以及推理、ML 研究工作流程、软件、工程和办公室工作等领域的其他复杂用例而构建。MiniMax M2.7 的开源权重版本现已通过 NVIDIA 和整个开源推理生态系统提供。

MiniMax M2 系列是稀疏混合专家 (MoE) 模型系列，专为提高效率和功能而设计。MoE 设计可保持较低的推理成本，同时保留 230B 参数模型的全部容量。它使用通过旋转位置嵌入 (RoPE) 和 Query-Key 根均方归一化 (QK RMSNorm) 增强的多头因果自注意力，实现大规模稳定训练。top-k 专家路由机制可确保只有最相关的专家才能为任何给定的输入激活，即使模型的总参数数量很大，也能保持较低的推理成本。因此，经过调优的架构能够出色应对编码挑战和复杂的代理式任务。

表 1. MiniMax M2.7，具有 230B 参数的文本 MoE 模型，每个词元有 10B 活跃参数，256 位专家，上下文长度为 20 万

使用 NVIDIA NemoClaw 构建长期运行的智能体

NVIDIA NemoClaw 是一个开源参考堆栈，只需一条命令，即可更安全地简化运行 OpenClaw 始终开启的助手。它安装 NVIDIA OpenShell 运行时，这是一个安全的环境，用于运行具有端点或开放模型 (如 M2.7) 的自主代理。开发者可以立即开始使用此一键式启动程序，在 NVIDIA Brev 云 AI GPU 平台上使用 OpenClaw 和 OpenShell 置备环境。

使用开源框架优化推理

为了更大限度地提高 MiniMax M2 系列模型的性能，NVIDIA 与开源社区合作，将高性能内核集成到 vLLM 和 SGLang 中。这些优化专门针对大规模 MoE 模型的架构需求：

QK RMS Norm 内核：此优化将计算和通信操作融合到单个内核中，以将查询和密钥归一化。内核可以更好地重叠计算和通信，减少内核启动和内存读取/ 写入用度，并提高推理性能。

FP8 MoE：集成 NVIDIA TensorRT-LLM FP8 MoE 模块化内核。这个经过良好优化的内核专门针对 MoE 模型，提高了整体端到端性能。

以下是使用 1K/ 1K ISL/ OSL 数据集设置 NVIDIA Blackwell Ultra GPU 时的 vLLM 结果。这两项优化在 1 个月内将吞吐量提高了 2.5 倍。

Figure shows throughput vs interactivity Pareto chart for MiniMax M2 series of models with vLLM and highlights a 2.5x improvement in throughput achieved in one month.

图 1. 采用 vLLM 的 MiniMax M2 系列的吞吐量 – 交互性 Pareto 曲线

图 2 显示了 NVIDIA Blackwell Ultra GPU 上使用 1K/ 1K ISL/ OSL 数据集得出的 SGLang 结果。这两项优化在 1 个月内将吞吐量提高了 2.7 倍。

Figure shows a throughput vs interactivity Pareto chart for MiniMax M2 series of models with SGLang and highlights a 2.7x improvement in throughput achieved in one month.

图 2. 使用 SGLang 的 MiniMax M2 系列的吞吐量 – 交互性 Pareto 曲线

使用 vLLM 进行部署

使用 vLLM 服务框架部署模型时，请按照以下说明操作。如需了解更多信息，请参阅 vLLM 指南。

$ vllm serve MiniMaxAI/MiniMax-M2.7 \ 
     --tensor-parallel-size 4 \ 
     --tool-call-parser minimax_m2 \ 
     --reasoning-parser minimax_m2_append_think \ 
     --enable-auto-tool-choice \  
     --trust-remote-code \ 
     --enable-expert-parallel

使用 SGLang 进行部署

使用 SGLang 服务框架部署模型的用户可以使用以下说明。有关更多信息和配置选项，请参阅 SGLang 文档。

$ sglang serve \ 
    --model-path MiniMaxAI/MiniMax-M2.7 \ 
    --tp-size 4 \ 
    --trust-remote-code \ 
    --disable-radix-cache \ 
    --max-running-requests 512 \ 
    --mem-fraction-static 0.85 \ 
    --cuda-graph-max-bs 512 \ 
    --kv-cache-dtype fp8_e4m3 \ 
    --quantization fp8 \ 
    --stream-interval 10 \ 
    --reasoning-parser=minimax-append-think \ 
    --dtype bfloat16 \ 
    --moe-runner-backend flashinfer_trtllm_routed \ 
    --fp8-gemm-backend flashinfer_trtllm \ 
    --enable-flashinfer-allreduce-fusion \ 
    --scheduler-recv-interval 10

使用 NVIDIA 端点进行构建

通过托管在 NVIDIA GPU 上的免费 GPU+ 加速端点，开始使用 MiniMax M2.7 进行构建。在 build.nvidia.com 上的浏览器中快速测试提示词，并使用您自己的数据评估性能。使用 NVIDIA NIM 扩展到生产 – 经过优化的容器化推理微服务，可在本地、云端或混合环境中部署。

使用 NVIDIA NeMo 框架进行后训练

要微调 MiniMax M2.7，请使用开源 NVIDIA NeMo AutoModel 库 ( NVIDIA NeMo 框架的一部分) 、M2.7 recipe 和 Hugging Face 上提供的最新检查点文档。用户可以使用自己选择的数据和 NeMo RL 库，以及样本方法 (8k 序列、16k 序列) 和参考精度验证曲线，在 MiniMax M2.7 上执行强化学习。

开始使用 MiniMax M2.7

从 NVIDIA Blackwell 上的数据中心部署到完全托管的企业 NVIDIA NIM 微服务，再到微调，NVIDIA 为您提供集成 MiniMax M2.7 的解决方案。首先，请查看 Hugging Face 或 build.nvidia.com 上的 MiniMax M2.7 页面。

关于作者

Anu Srivastava 是高级技术营销经理，专注于开放 AI 模型。她与主要合作伙伴和基金会合作，为开源开发者生态系统提供 NVIDIA 加速平台支持。加入 NVIDIA 之前，她曾在 Google 担任各种工程职务超过 10 年，并拥有德克萨斯大学奥斯汀分校计算机科学学位。

查看 Anu Srivastava 所有文章

Shruti Koparkar 是 NVIDIA 加速计算部门的产品营销高级经理，专注于 AI 推理。她在工程、产品管理和产品营销方面拥有跨职能经验，特别是在 Amazon Web Services 和 Arm 工作。她拥有明尼苏达大学电气和计算机工程硕士学位。

查看 Shruti Koparkar 所有文章

NVIDIA AI 技术专区

分享最新的 NVIDIA AI Software 资源以及活动/会议信息，精选收录AI相关技术内容，欢迎大家加入社区并参与讨论。

更多推荐

使用端到端 FP8 精度运行高吞吐量强化学习训练

NVIDIA AI 技术专区

NVIDIA AI 培训班 | 5 月 14 日开课：利用提示工程构建大语言模型应用

NVIDIA AI 技术专区

NVIDIA AI 培训班 | 6 月 4 日开课：构建基于大语言模型的应用

NVIDIA 深度学习培训中心（DLI）提供的《构建基于大语言模型的应用》 AI 培训班即将开课，由 NVIDIA 认证讲师全天实时中文授课和答疑，配合云端实验环境的动手实操帮助每位学员深入理解 LLM 应用开发并积累实践经验，从而快速投入实际开发工作。无论是个人技能跃升还是团队能力建设，NVIDIA 深度学习培训中心（DLI）的生成式 AI 认证学习路径都能为您提供系统支撑 —— 从认证科目选择