AI推理服务部署与优化
📖 课程简介
面向生产环境的AI推理服务部署课程。深入vLLM的PagedAttention和连续批处理、Triton的多模型流水线、TensorRT-LLM的INT4/FP8量化与内核融合等优化技术,掌握高吞吐低延迟的推理服务部署。
🎯 学习收获
✅ 掌握vLLM PagedAttention和连续批处理原理
✅ 学会Triton多模型流水线部署
✅ 掌握TensorRT-LLM量化和优化技术
✅ 能够进行推理服务的性能基准测试
✅ 具备生产环境推理服务的运维能力
📋 前置要求
• 熟悉LLM推理的基本概念
• 有Docker和GPU服务器使用经验
• 了解基本的性能指标(延迟/吞吐量)
👥 适合人群
👤 AI平台运维工程师
👤 需要优化推理性能的AI开发者
👤 对生产级部署方案有需求的技术团队