NVIDIA TensorRT LLM 1.0 心得

一开始想直接 pip install，结果发现官方 PyPI 包对驱动版本要求很严，折腾半天依赖冲突，干脆改用 NGC 上的官方 Docker 镜像（nvcr.io/nvidia/tritonserver:24.07-trtllm-python-py3）。拉下来之后启动容器，挂载本地模型目录，省去了环境配置的麻烦。另外，文档虽然齐全，但示例分散在 GitHub 和官网，新手容易迷路。，顺手在本地部

翎刿

2388人浏览 · 2025-11-04 12:05:56

翎刿 · 2025-11-04 12:05:56 发布

重磅发布！NVIDIA TensorRT LLM 1.0 上线
https://marketing.csdn.net/p/2f305fdae56d5d43fd0a970a7fe7348d?pId=3163

《NVIDIA TensorRT LLM 1.0 使用指南》链接
https://img-bss.csdnimg.cn/bss/NVIDIA/TensorRT-LLM.html

最近折腾了一下 NVIDIA 刚开源不久的 TensorRT-LLM 1.0，顺手在本地部署了个 TinyLlama 模型跑推理，整个过程踩了几个坑，也收获不少，记录下来给想入门的同学做个参考。

我用的是 Ubuntu 22.04 + RTX 4090 + CUDA 12.4 环境。一开始想直接 pip install，结果发现官方 PyPI 包对驱动版本要求很严，折腾半天依赖冲突，干脆改用 NGC 上的官方 Docker 镜像（nvcr.io/nvidia/tritonserver:24.07-trtllm-python-py3）。拉下来之后启动容器，挂载本地模型目录，省去了环境配置的麻烦。

模型选的是 TinyLlama-1.1B-Chat-v1.0，从 HuggingFace 上直接下载。TensorRT-LLM 的 LLM API 确实够简洁，几行代码就能完成量化+编译+推理：

from tensorrt_llm import LLM
llm = LLM(model="TinyLlama/TinyLlama-1.1B-Chat-v1.0", tokenizer="TinyLlama/TinyLlama-1.1B-Chat-v1.0")
output = llm.generate("介绍一下哈尔滨工业大学")
print(output)

背后其实自动完成了 FP16 优化、TensorRT 引擎构建和 KV Cache 管理，第一次跑会慢一点（约2分钟编译），但后续推理飞快。

实测结果：在 batch_size=1、max_new_tokens=128 的情况下，首 token 延迟约 85ms，后续 token 平均 6ms/token，全程 GPU 利用率稳定在 70% 左右，显存占用约 3.2GB。对比之前用 HuggingFace Transformers 原生推理（约 22ms/token），速度提升接近 4 倍，效果相当明显。

不过也遇到几个问题：一是自定义 prompt template 需要手动拼接，API 暂不支持自动加 chat template；二是目前只支持部分主流模型（Llama、Mistral、Qwen 等），像一些国产小模型还得等社区适配。另外，文档虽然齐全，但示例分散在 GitHub 和官网，新手容易迷路。

最大的感受是：TensorRT-LLM 真正把大模型部署的门槛降下来了。以前搞 TensorRT 优化要写 plugin、调 engine、处理 dynamic shape，现在一个 LLM 对象全搞定。对于想快速上线轻量级 LLM 服务的团队，这套工具链非常实用。

最后我强烈建议试试 TensorRT-LLM 1.0——不是因为它完美，而是它让“高效推理”这件事，终于变得简单了。