NVIDIA TensorRT-LLM 支持腾讯混元最新大语言模型 Hunyuan-A13B推理加速

未来，NVIDIA 技术专家团队将继续跟进混元模型的演进，探索更极致的推理加速技术（如新一代量化、更精细的算子融合、对 Blackwell 新特性的支持），不断刷新性能天花板。同时还将持续推动 TensorRT-LLM 与腾讯云 TI 平台、Hunyuan API 服务等生态的深度集成，提供更便捷的一站式混元模型部署与管理体验。

NVIDIA AI 技术专区

891人浏览 · 2025-07-04 16:59:53

NVIDIA AI 技术专区 · 2025-07-04 16:59:53 发布

腾讯混元 (Hunyuan) 最新大语言模型 Hunyuan-A13B 今日发布，NVIDIA TensorRT-LLM 作为全球领先的 AI 推理加速引擎，现已提供全面高效的推理支持。开发者与企业用户现可借助 TensorRT-LLM 的强大优化能力，无缝部署并极致发挥混元模型的卓越性能，开启高效、稳定、低成本的大模型应用之旅。

腾讯混元：自研大模型的卓越力量

腾讯混元大模型 (Tencent Hunyuan) 是腾讯公司自主研发的全链路大语言模型及应用体系。基于强大的 Transformer 架构，该系列模型以其深厚的知识理解、精准的逻辑推理、流畅的文本生成（特别是卓越的中文创作能力）、复杂语境下的可靠任务执行能力著称，并具备多模态潜力。混元模型深度服务于腾讯内部海量业务场景，并持续向开发者及企业客户输出领先的 AI 能力。

最新混元模型的亮点聚焦：

性能跃升与架构创新：
- Hunyuan-A13B 在复杂推理、长文本理解（支持 256K 上下文）、指令跟随等方面取得显著突破，综合性能达到业界顶尖水平。
- 采用创新的模型架构：融合了 Grouped Query Attention (GQA) 和 Mixture of Experts (MoE) 结构，在保持甚至提升强大能力的同时，显著优化了推理效率。
- 支持中英文等多国语言，拓展应用边界。
场景深化：持续优化在搜索、问答、内容创作、代码生成等核心场景的表现，更贴合实际业务需求。

生态开放：积极拥抱开源社区和产业合作，推动大模型技术的普惠应用。继开源 7B Dense 模型和 MoE 模型 Hunyuan Large 之后，此次更开源了高性能的 Hunyuan-A13B 大模型，进一步丰富了开放生态。

TensorRT-LLM 加速大模型推理

NVIDIA TensorRT-LLM 提供了最新极致优化的计算 kernel、高性能 Attention 实现、多机多卡通信分布式支持、丰富的并行和量化策略等，向来是 NVIDIA GPU 上大语言模型 (LLM) 推理的性能标杆。此外，TensorRT-LLM 最近引入了 PyTorch backend，利用 PyTorch op 即可搭建、运行模型，极大简化了新模型的开发和调试；同时，它为模型的推理和配置提供了直观、简洁的 LLM API，方便模型的部署和运行。

针对 Hunyuan-A13B 的经典 GQA+MoE 结构，TensorRT-LLM 已经包含了模型基础组件的运行条件。然而，该模型的结构也有独特之处：其位置编码选用 Dynamic NTK Alpha scaling，而且 QK normalization 位于位置编码之后。利用 PyTorch backend 的编程灵活性，Hunyuan-A13B 模型得以在 TensorRT-LLM 上快速地开发并完善地运行，并提供 Tensor Parallel (TP) / Expert Parallel (EP) / FP8 量化等多种加速策略，实现了高性能推理。

基于 TensorRT-LLM 运行混元模型

以下将使用 PyTorch backend 进行模型性能基准测试以及服务化部署展示。

1. 性能基础测试示例

a. 准备 benchmarking 测试数据集和 extra-llm-api-config.yml 配置文件：

python3 /path/to/TensorRT-LLM/benchmarks/cpp/prepare_dataset.py \    --tokenizer=/path/to/Hunyuan-A13B \    --stdout token-norm-dist --num-requests=32768 \    --input-mean=1024 --output-mean=1024 \    --input-stdev=0 --output-stdev=0 > /path/to/dataset.txt

cat >/path/to/extra-llm-api-config.yml <<EOFuse_cuda_graph: truecuda_graph_padding_enabled: truecuda_graph_batch_sizes:- 1- 2- 4- 8- 16- 32- 64- 128- 256print_iter_log: trueEOF

b. 使用 trtllm-bench 指令获取 benchmarking 数据

trtllm-bench \      --model path/Hunyuan-A13B \      --model_path /path/to/Hunyuan-A13B \      throughput \      --backend pytorch \      --max_batch_size 128 \      --max_num_tokens 16384 \      --tp_size 2 \      --dataset /path/to/dataset.txt \      --extra_llm_api_options /path/to/extra-llm-api-config.yml \      --streaming

2. 服务化部署示例

a. 使用 trtllm-serve 指令结合配置文件以启动服务

trtllm-serve \  /path/to/HunYuan-A13B \  --host localhost \  --port 8000 \  --backend pytorch \  --max_batch_size 128 \  --max_num_tokens 16384 \  --tp_size 2 \  --kv_cache_free_gpu_memory_fraction 0.95 \  --extra_llm_api_options /path/to/extra-llm-api-config.yml

b. 使用 OpenAI API 进行模型推理调用

curl -X POST "http://localhost:8000/v1/chat/completions" \  -H "Content-Type: application/json" \  --data '{    "model": "HunYuan/HunYuan-A13B",           "Max_tokens": 1024,           "Temperature": 0,    "messages": [      {        "role": "user",        "content": "What is Tencent HunYuan?"      }    ]  }'