🚀

AI推理服务部署与优化

高阶 199元 ⏱ 18 课时 👥 1,200 人已学

立即购买 - 199元加入收藏

📖 课程简介

面向生产环境的AI推理服务部署课程。深入vLLM的PagedAttention和连续批处理、Triton的多模型流水线、TensorRT-LLM的INT4/FP8量化与内核融合等优化技术，掌握高吞吐低延迟的推理服务部署。

🎯 学习收获

✅ 掌握vLLM PagedAttention和连续批处理原理

✅ 学会Triton多模型流水线部署

✅ 掌握TensorRT-LLM量化和优化技术

✅ 能够进行推理服务的性能基准测试

✅ 具备生产环境推理服务的运维能力

📋 前置要求

• 熟悉LLM推理的基本概念

• 有Docker和GPU服务器使用经验

• 了解基本的性能指标（延迟/吞吐量）

👥 适合人群

👤 AI平台运维工程师

👤 需要优化推理性能的AI开发者

👤 对生产级部署方案有需求的技术团队

🛠️ 技术栈

vLLM GPU NVIDIA