vLLM
工具简介
vLLM是目前性能最领先的开源LLM推理引擎,核心创新是PagedAttention算法,显存利用率极高。支持连续批处理、流式输出、量化推理,吞吐量是传统方案的2-4倍,是生产环境部署LLM的首选。
3
浏览量
0
收藏
4.9
评分