MiniMax M2.7 的发布为流行的 MiniMax M2.7 模型增加了增强功能,该模型专为代理式线束以及推理、ML 研究工作流程、软件、工程和办公室工作等领域的其他复杂用例而构建。MiniMax M2.7 的开源权重版本现已通过 NVIDIA 和整个开源推理生态系统提供。

MiniMax M2 系列是稀疏混合专家 (MoE) 模型系列,专为提高效率和功能而设计。MoE 设计可保持较低的推理成本,同时保留 230B 参数模型的全部容量。它使用通过旋转位置嵌入 (RoPE) 和 Query-Key 根均方归一化 (QK RMSNorm) 增强的多头因果自注意力,实现大规模稳定训练。top-k 专家路由机制可确保只有最相关的专家才能为任何给定的输入激活,即使模型的总参数数量很大,也能保持较低的推理成本。因此,经过调优的架构能够出色应对编码挑战和复杂的代理式任务。

表 1. MiniMax M2.7,具有 230B 参数的文本 MoE 模型,每个词元有 10B 活跃参数,256 位专家,上下文长度为 20 万 

使用 NVIDIA NemoClaw 构建长期运行的智能体

NVIDIA NemoClaw 是一个开源参考堆栈,只需一条命令,即可更安全地简化运行 OpenClaw 始终开启的助手。它安装 NVIDIA OpenShell 运行时,这是一个安全的环境,用于运行具有端点或开放模型 (如 M2.7) 的自主代理。开发者可以立即开始使用此 一键式启动程序 ,在 NVIDIA Brev 云 AI GPU 平台上使用 OpenClaw 和 OpenShell 置备环境。

使用开源框架优化推理

为了更大限度地提高 MiniMax M2 系列模型的性能,NVIDIA 与开源社区合作,将高性能内核集成到 vLLM 和 SGLang 中。这些优化专门针对大规模 MoE 模型的架构需求:

  • QK RMS Norm 内核:此优化将计算和通信操作融合到单个内核中,以将查询和密钥归一化。内核可以更好地重叠计算和通信,减少内核启动和内存读取/ 写入用度,并提高推理性能。
  • FP8 MoE:集成 NVIDIA TensorRT-LLM FP8 MoE 模块化内核。这个经过良好优化的内核专门针对 MoE 模型,提高了整体端到端性能。

以下是使用 1K/ 1K ISL/ OSL 数据集设置 NVIDIA Blackwell Ultra GPU 时的 vLLM 结果。这两项优化在 1 个月内将吞吐量提高了 2.5 倍。

Figure shows throughput vs interactivity Pareto chart for MiniMax M2 series of models with vLLM and highlights a 2.5x improvement in throughput achieved in one month.

图 1. 采用 vLLM 的 MiniMax M2 系列的吞吐量 – 交互性 Pareto 曲线

图 2 显示了 NVIDIA Blackwell Ultra GPU 上使用 1K/ 1K ISL/ OSL 数据集得出的 SGLang 结果。这两项优化在 1 个月内将吞吐量提高了 2.7 倍。

Figure shows a throughput vs interactivity Pareto chart for MiniMax M2 series of models with SGLang and highlights a 2.7x improvement in throughput achieved in one month.

图 2. 使用 SGLang 的 MiniMax M2 系列的吞吐量 – 交互性 Pareto 曲线

使用 vLLM 进行部署

使用 vLLM 服务框架部署模型时,请按照以下说明操作。如需了解更多信息,请参阅 vLLM 指南

$ vllm serve MiniMaxAI/MiniMax-M2.7 \ 
     --tensor-parallel-size 4 \ 
     --tool-call-parser minimax_m2 \ 
     --reasoning-parser minimax_m2_append_think \ 
     --enable-auto-tool-choice \  
     --trust-remote-code \ 
     --enable-expert-parallel 

使用 SGLang 进行部署

使用 SGLang 服务框架部署模型的用户可以使用以下说明。有关更多信息和配置选项,请参阅 SGLang 文档

$ sglang serve \ 
    --model-path MiniMaxAI/MiniMax-M2.7 \ 
    --tp-size 4 \ 
    --trust-remote-code \ 
    --disable-radix-cache \ 
    --max-running-requests 512 \ 
    --mem-fraction-static 0.85 \ 
    --cuda-graph-max-bs 512 \ 
    --kv-cache-dtype fp8_e4m3 \ 
    --quantization fp8 \ 
    --stream-interval 10 \ 
    --reasoning-parser=minimax-append-think \ 
    --dtype bfloat16 \ 
    --moe-runner-backend flashinfer_trtllm_routed \ 
    --fp8-gemm-backend flashinfer_trtllm \ 
    --enable-flashinfer-allreduce-fusion \ 
    --scheduler-recv-interval 10

使用 NVIDIA 端点进行构建

通过托管在 NVIDIA GPU 上的免费 GPU+ 加速端点,开始使用 MiniMax M2.7 进行构建 。在 build.nvidia.com 上的浏览器中快速测试提示词,并使用您自己的数据评估性能。使用 NVIDIA NIM 扩展到生产 – 经过优化的容器化推理微服务,可在本地、云端或混合环境中部署。

使用 NVIDIA NeMo 框架进行后训练

要微调 MiniMax M2.7,请使用开源 NVIDIA NeMo AutoModel 库 ( NVIDIA NeMo 框架的一部分) 、M2.7 recipe 和 Hugging Face 上提供的最新检查点文档。用户可以使用自己选择的数据和 NeMo RL 库,以及样本方法 (8k 序列16k 序列) 和参考 精度验证曲线,在 MiniMax M2.7 上执行强化学习。

开始使用 MiniMax M2.7

从 NVIDIA Blackwell 上的数据中心部署到完全托管的企业 NVIDIA NIM 微服务,再到微调,NVIDIA 为您提供集成 MiniMax M2.7 的解决方案。首先,请查看 Hugging Face 或 build.nvidia.com 上的 MiniMax M2.7 页面。

关于作者

Anu Srivastava 是高级技术营销经理,专注于开放 AI 模型。她与主要合作伙伴和基金会合作,为开源开发者生态系统提供 NVIDIA 加速平台支持。加入 NVIDIA 之前,她曾在 Google 担任各种工程职务超过 10 年,并拥有德克萨斯大学奥斯汀分校计算机科学学位。

查看 Anu Srivastava 所有文章

Shruti Koparkar 是 NVIDIA 加速计算部门的产品营销高级经理,专注于 AI 推理。她在工程、产品管理和产品营销方面拥有跨职能经验,特别是在 Amazon Web Services 和 Arm 工作。她拥有明尼苏达大学电气和计算机工程硕士学位。

查看 Shruti Koparkar 所有文章

Logo

分享最新的 NVIDIA AI Software 资源以及活动/会议信息,精选收录AI相关技术内容,欢迎大家加入社区并参与讨论。

更多推荐