vLLM 高性能推理服务集群
方案简介
vLLM是目前性能领先的开源LLM推理引擎,采用PagedAttention算法大幅提升显存利用率。支持连续批处理、流式输出、张量并行和量化推理,适合高并发生产环境部署大语言模型推理服务。
技术标签
❤️ 156
收藏
👁️ 8
浏览量
💬 0
评论