NVIDIA TensorRT LLM 1.0 心得
一开始想直接 pip install,结果发现官方 PyPI 包对驱动版本要求很严,折腾半天依赖冲突,干脆改用 NGC 上的官方 Docker 镜像(nvcr.io/nvidia/tritonserver:24.07-trtllm-python-py3)。拉下来之后启动容器,挂载本地模型目录,省去了环境配置的麻烦。另外,文档虽然齐全,但示例分散在 GitHub 和官网,新手容易迷路。,顺手在本地部
重磅发布!NVIDIA TensorRT LLM 1.0 上线
https://marketing.csdn.net/p/2f305fdae56d5d43fd0a970a7fe7348d?pId=3163
《NVIDIA TensorRT LLM 1.0 使用指南》链接
https://img-bss.csdnimg.cn/bss/NVIDIA/TensorRT-LLM.html
最近折腾了一下 NVIDIA 刚开源不久的 TensorRT-LLM 1.0,顺手在本地部署了个 TinyLlama 模型跑推理,整个过程踩了几个坑,也收获不少,记录下来给想入门的同学做个参考。
我用的是 Ubuntu 22.04 + RTX 4090 + CUDA 12.4 环境。一开始想直接 pip install,结果发现官方 PyPI 包对驱动版本要求很严,折腾半天依赖冲突,干脆改用 NGC 上的官方 Docker 镜像(nvcr.io/nvidia/tritonserver:24.07-trtllm-python-py3)。拉下来之后启动容器,挂载本地模型目录,省去了环境配置的麻烦。
模型选的是 TinyLlama-1.1B-Chat-v1.0,从 HuggingFace 上直接下载。TensorRT-LLM 的 LLM API 确实够简洁,几行代码就能完成量化+编译+推理:
from tensorrt_llm import LLM
llm = LLM(model="TinyLlama/TinyLlama-1.1B-Chat-v1.0", tokenizer="TinyLlama/TinyLlama-1.1B-Chat-v1.0")
output = llm.generate("介绍一下哈尔滨工业大学")
print(output)
背后其实自动完成了 FP16 优化、TensorRT 引擎构建和 KV Cache 管理,第一次跑会慢一点(约2分钟编译),但后续推理飞快。
实测结果:在 batch_size=1、max_new_tokens=128 的情况下,首 token 延迟约 85ms,后续 token 平均 6ms/token,全程 GPU 利用率稳定在 70% 左右,显存占用约 3.2GB。对比之前用 HuggingFace Transformers 原生推理(约 22ms/token),速度提升接近 4 倍,效果相当明显。
不过也遇到几个问题:一是自定义 prompt template 需要手动拼接,API 暂不支持自动加 chat template;二是目前只支持部分主流模型(Llama、Mistral、Qwen 等),像一些国产小模型还得等社区适配。另外,文档虽然齐全,但示例分散在 GitHub 和官网,新手容易迷路。
最大的感受是:TensorRT-LLM 真正把大模型部署的门槛降下来了。以前搞 TensorRT 优化要写 plugin、调 engine、处理 dynamic shape,现在一个 LLM 对象全搞定。对于想快速上线轻量级 LLM 服务的团队,这套工具链非常实用。
最后我强烈建议试试 TensorRT-LLM 1.0——不是因为它完美,而是它让“高效推理”这件事,终于变得简单了。
更多推荐




所有评论(0)