腾讯混元 (Hunyuan) 最新大语言模型 Hunyuan-A13B 今日发布,NVIDIA TensorRT-LLM 作为全球领先的 AI 推理加速引擎,现已提供全面高效的推理支持。开发者与企业用户现可借助 TensorRT-LLM 的强大优化能力,无缝部署并极致发挥混元模型的卓越性能,开启高效、稳定、低成本的大模型应用之旅。

腾讯混元:自研大模型的卓越力量

腾讯混元大模型 (Tencent Hunyuan) 是腾讯公司自主研发的全链路大语言模型及应用体系。基于强大的 Transformer 架构,该系列模型以其深厚的知识理解、精准的逻辑推理、流畅的文本生成(特别是卓越的中文创作能力)、复杂语境下的可靠任务执行能力著称,并具备多模态潜力。混元模型深度服务于腾讯内部海量业务场景,并持续向开发者及企业客户输出领先的 AI 能力。

最新混元模型的亮点聚焦:

  • 性能跃升与架构创新:

    • Hunyuan-A13B 在复杂推理、长文本理解(支持 256K 上下文)、指令跟随等方面取得显著突破,综合性能达到业界顶尖水平。

    • 采用创新的模型架构:融合了 Grouped Query Attention (GQA) 和 Mixture of Experts (MoE) 结构,在保持甚至提升强大能力的同时,显著优化了推理效率。

    • 支持中英文等多国语言,拓展应用边界。

  • 场景深化:持续优化在搜索、问答、内容创作、代码生成等核心场景的表现,更贴合实际业务需求。

  • 生态开放:积极拥抱开源社区和产业合作,推动大模型技术的普惠应用。继开源 7B Dense 模型 和 MoE 模型 Hunyuan Large 之后,此次更开源了高性能的 Hunyuan-A13B 大模型,进一步丰富了开放生态。

TensorRT-LLM 加速大模型推理

NVIDIA TensorRT-LLM 提供了最新极致优化的计算 kernel、高性能 Attention 实现、多机多卡通信分布式支持、丰富的并行和量化策略等,向来是 NVIDIA GPU 上大语言模型 (LLM) 推理的性能标杆。此外,TensorRT-LLM 最近引入了 PyTorch backend,利用 PyTorch op 即可搭建、运行模型,极大简化了新模型的开发和调试;同时,它为模型的推理和配置提供了直观、简洁的 LLM API,方便模型的部署和运行。

针对 Hunyuan-A13B 的经典 GQA+MoE 结构,TensorRT-LLM 已经包含了模型基础组件的运行条件。然而,该模型的结构也有独特之处:其位置编码选用 Dynamic NTK Alpha scaling,而且 QK normalization 位于位置编码之后。利用 PyTorch backend 的编程灵活性,Hunyuan-A13B 模型得以在 TensorRT-LLM 上快速地开发并完善地运行,并提供 Tensor Parallel (TP) / Expert Parallel (EP) / FP8 量化等多种加速策略,实现了高性能推理。

基于 TensorRT-LLM 运行混元模型

以下将使用 PyTorch backend 进行模型性能基准测试以及服务化部署展示。

1. 性能基础测试示例

a. 准备 benchmarking 测试数据集和 extra-llm-api-config.yml 配置文件:

python3 /path/to/TensorRT-LLM/benchmarks/cpp/prepare_dataset.py \    --tokenizer=/path/to/Hunyuan-A13B \    --stdout token-norm-dist --num-requests=32768 \    --input-mean=1024 --output-mean=1024 \    --input-stdev=0 --output-stdev=0 > /path/to/dataset.txt

cat >/path/to/extra-llm-api-config.yml <<EOFuse_cuda_graph: truecuda_graph_padding_enabled: truecuda_graph_batch_sizes:- 1- 2- 4- 8- 16- 32- 64- 128- 256print_iter_log: trueEOF

b. 使用 trtllm-bench 指令获取 benchmarking 数据

trtllm-bench \      --model path/Hunyuan-A13B \      --model_path /path/to/Hunyuan-A13B \      throughput \      --backend pytorch \      --max_batch_size 128 \      --max_num_tokens 16384 \      --tp_size 2 \      --dataset /path/to/dataset.txt \      --extra_llm_api_options /path/to/extra-llm-api-config.yml \      --streaming

2. 服务化部署示例

a. 使用 trtllm-serve 指令结合配置文件以启动服务

trtllm-serve \  /path/to/HunYuan-A13B \  --host localhost \  --port 8000 \  --backend pytorch \  --max_batch_size 128 \  --max_num_tokens 16384 \  --tp_size 2 \  --kv_cache_free_gpu_memory_fraction 0.95 \  --extra_llm_api_options /path/to/extra-llm-api-config.yml

b. 使用 OpenAI API 进行模型推理调用

curl -X POST "http://localhost:8000/v1/chat/completions" \  -H "Content-Type: application/json" \  --data '{    "model": "HunYuan/HunYuan-A13B",           "Max_tokens": 1024,           "Temperature": 0,    "messages": [      {        "role": "user",        "content": "What is Tencent HunYuan?"      }    ]  }'

结语与展望:加速生成式 AI 未来

未来,NVIDIA 技术专家团队将继续跟进混元模型的演进,探索更极致的推理加速技术(如新一代量化、更精细的算子融合、对 Blackwell 新特性的支持),不断刷新性能天花板。同时还将持续推动 TensorRT-LLM 与腾讯云 TI 平台、Hunyuan API 服务等生态的深度集成,提供更便捷的一站式混元模型部署与管理体验。

作者

图片

王猛

NVIDIA 加速计算专家,专注于大语言模型和扩散模型的推理优化,对 NVIDIA TensorRT 和 TensorRT-LLM 拥有丰富的经验。

图片

谷鋆

深度学习解决方案架构师。他于 2022 年加入 NVIDIA 解决方案架构师团队,专门为中国 CSP 进行 LLM 模型推理服务优化。

图片

李博

2024 年加入 NVIDIA DevTech 团队,专注于 NVIDIA GPU 上 AI 模型推理的加速计算。目前他主要负责 TensorRT-LLM 中大语言模型的推理优化。

图片

董纪莹

2025 年加入 NVIDIA DevTech 团队,专注于 NVIDIA GPU 上 AI 模型推理的加速计算。加入 NVIDIA 之后,她主要参加了 TensorRT-LLM 中大语言模型的推理优化。

图片

袁劲飏

来自 NVIDIA DevTech 团队,从事企业用户 GPU 加速计算支持工作,目前主要负责大语言模型推理的性能优化工作。

Logo

分享最新的 NVIDIA AI Software 资源以及活动/会议信息,精选收录AI相关技术内容,欢迎大家加入社区并参与讨论。

更多推荐