精选· 重要性 5/5

vLLM：高吞吐量、内存高效的LLM推理与部署引擎

GitHub Trending (AI repos)·8 天前·vllm-project·约 3 分钟阅读

Hacker News 82447 分

中文导读

vLLM 是一个由 UC Berkeley 发起、社区驱动的开源项目，专为大语言模型推理和服务设计，通过 PagedAttention 等技术实现高吞吐量和低内存占用，支持 200+ 模型架构和多种硬件。

| 文档 | 博客 | 论文 | Twitter/X | 用户论坛 | 开发者 Slack |🔥 我们搭建了 vLLM 网站，帮助您快速上手 vLLM。请访问 vllm.ai 了解更多。活动信息请访问 vllm.ai/events 加入我们。

vLLM 是一个快速且易于使用的 LLM 推理和服务库。它最初在加州大学伯克利分校的 Sky Computing 实验室开发，现已发展成为由来自 2000 多名贡献者、数十个学术机构和公司组成的多元化社区所构建和维护的最活跃的开源 AI 项目之一。

vLLM 速度快，具备以下特性：- 最先进的服务吞吐量- 使用 PagedAttention 高效管理注意力键值内存- 连续批处理传入请求、分块预填充、前缀缓存- 通过分段和完整的 CUDA/HIP 图实现快速灵活的模型执行- 量化：FP8、MXFP8/MXFP4、

NVFP4、INT8、INT4、GPTQ/AWQ、GGUF、compressed-tensors、ModelOpt、TorchAO 等- 优化的注意力内核，包括 FlashAttention、FlashInfer、TRTLLM-GEN、

FlashMLA 和 Triton- 使用 CUTLASS、TRTLLM-GEN、CuTeDSL 针对各种精度优化的 GEMM/MoE 内核- 推测解码，包括 n-gram、后缀、EAGLE、DFlash- 使用 torch.compile 自动生成内核和进行图级转换

- 分离的预填充、解码和编码vLLM 灵活且易于使用，具备以下特性：- 与流行的 Hugging Face 模型无缝集成- 高吞吐量服务，支持多种解码算法，包括并行采样、束搜索等- 用于分布式推理的张量、流水线、数据、

专家和上下文并行- 流式输出- 使用 xgrammar 或 guidance 生成结构化输出- 工具调用和推理解析器- 兼容 OpenAI 的 API 服务器，

外加 Anthropic Messages API 和 gRPC 支持- 对密集层和 MoE 层的高效多 LoRA 支持- 支持 NVIDIA GPU、AMD GPU 以及 x86/ARM/PowerPC CPU。

此外，还有多种硬件插件，如 Google TPU、Intel Gaudi、IBM Spyre、华为昇腾、Rebellions NPU、Apple Silicon、MetaX GPU 等。

vLLM 在 Hugging Face 上无缝支持 200 多种模型架构，包括：- 仅解码器 LLM（例如 Llama、Qwen、Gemma）- 混合专家 LLM（例如 Mixtral、DeepSeek-V3、Qwen-MoE、

GPT-OSS）- 混合注意力和状态空间模型（例如 Mamba、

Qwen3.5）- 多模态模型（例如 LLaVA、Qwen-VL、Pixtral）- 嵌入和检索模型（例如 E5-Mistral、GTE、ColBERT）- 奖励和分类模型（例如 Qwen-Math）在此处查找支持模型的完整列表。

使用 uv（推荐）或 pip 安装 vLLM：uv pip install vllm或从源码构建以进行开发。访问我们的文档了解更多。我们欢迎并重视任何贡献和合作。

请查看 Contributing to vLLM 了解如何参与。如果您在研究中使用了 vLLM，请引用我们的论文：@inproceedings{kwon2023efficient,

title={Efficient Memory Management for Large Language Model Serving with PagedAttention},

author={Woosuk Kwon and Zhuohan Li and Siyuan Zhuang and Ying Sheng and Lianmin Zheng and Cody Hao Yu and Joseph E. Gonzalez and Hao Zha

ng and Ion Stoica},booktitle={Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles},year={2023}}- 技术问题和功能请求，

请使用 GitHub Issues- 与其他用户讨论，

请使用 vLLM 论坛- 协调贡献和开发，请使用 Slack- 安全披露，请使用 GitHub 的安全公告功能- 合作与伙伴关系，请通过 collaboration@vllm.ai 联系我们- 如需使用 vLLM 的徽标，请参考我们的媒体工具包仓库

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读