TensorRT-LLM
工具简介
TensorRT-LLM是NVIDIA为LLM推理推出的优化引擎,提供FP8/INT4/INT8量化、内联融合、KV缓存优化等高级特性。在NVIDIA GPU上可获得极致推理性能,适合高并发生产环境。
1
浏览量
0
收藏
4.7
评分