本地大模型部署实战
📖 课程简介
深入讲解大语言模型的本地部署技术,覆盖Ollama、vLLM、TGI三大主流推理引擎。学习模型量化(GGUF/GPTQ/AWQ)、CPU/GPU混合推理、多GPU张量并行等高级部署技术。
🎯 学习收获
✅ 掌握Ollama/vLLM/TGI三大推理引擎的部署
✅ 学会模型量化和GPU加速技术
✅ 理解不同推理引擎的适用场景和性能对比
✅ 能够根据需求选择合适的推理方案
✅ 具备生产级LLM服务部署能力
📋 前置要求
• 已完成AI平台从零搭建课程或有Docker基础
• 了解基本的LLM概念
• 拥有一台带GPU的服务器(或足够大的CPU内存)
👥 适合人群
👤 已入门AI部署的进阶学习者
👤 需要部署LLM服务的开发者和运维人员
👤 对模型推理性能有要求的AI应用开发者