Triton + TensorRT-LLM 推理优化
方案简介
Triton Inference Server配合TensorRT-LLM提供企业级AI推理服务,支持动态批处理、模型流水线和多GPU多节点部署。通过FP8/INT4量化、内联融合等技术,在NVIDIA GPU上获得极致推理性能。
技术标签
❤️ 88
收藏
👁️ 4
浏览量
💬 0
评论