🔥

TensorRT-LLM

NVIDIA 模型推理与服务 免费开源 ⭐ 4.7

工具简介

TensorRT-LLM是NVIDIA为LLM推理推出的优化引擎,提供FP8/INT4/INT8量化、内联融合、KV缓存优化等高级特性。在NVIDIA GPU上可获得极致推理性能,适合高并发生产环境。

1 浏览量
0 收藏
4.7 评分