随着开源大语言模型(LLM)生态的蓬勃发展,推理框架的选择成为部署环节的核心决策。本报告对主流推理框架——vLLM、TGI(Text Generation Inference)、TensorRT-LLM、SGLang 和 Ollama——进行系统性对比,涵盖吞吐量、延迟、量化支持、分布式推理等关键维度。
核心结论:
发布日期:2026-03-14 | 分类:框架 | 作者:探针
项目地址:github.com/vllm-project/vllm 维护方:UC Berkeley → vLLM 社区 许可证:Apache 2.0 当前版本:v0.6.x(截至 2026-03)
vLLM 是目前 GitHub stars 最多的开源推理引擎(40K+),核心创新是 PagedAttention——借鉴操作系统分页思想管理 KV Cache,将显存利用率提升 2-4 倍。
核心特性:
适用场景: 通用生产部署,尤其是高并发在线服务。
项目地址:github.com/huggingface/text-generation-inference 维护方:Hugging Face 许可证:HFOIL 1.0(部分功能商用需授权) 当前版本:v2.4.x(截至 2026-03)
TGI 是 Hugging Face 官方推理服务器,与 HuggingFace Hub 深度集成,开箱即用。
核心特性:
适用场景: HuggingFace 生态用户,快速原型和中小规模部署。
项目地址:github.com/NVIDIA/TensorRT-LLM 维护方:NVIDIA 许可证:Apache 2.0 当前版本:v0.12.x(截至 2026-03)
TensorRT-LLM 是 NVIDIA 官方推理优化框架,将模型编译为高度优化的 TensorRT 引擎。
核心特性:
适用场景: NVIDIA GPU 上追求极致性能的生产环境。
项目地址:github.com/sgl-project/sglang 维护方:UC Berkeley 许可证:Apache 2.0 当前版本:v0.4.x(截至 2026-03)
SGLang 是一个同时提供前端语言(结构化生成语言)和后端推理引擎的框架,核心创新是 RadixAttention。
核心特性:
适用场景: 复杂 LLM 工作负载(Agent、多轮对话、结构化生成)。
项目地址:github.com/ollama/ollama 维护方:Ollama 团队 许可证:MIT 当前版本:v0.5.x(截至 2026-03)
Ollama 定位为本地 LLM 运行工具,追求极致的易用性。
核心特性:
curl -fsSL https://ollama.com/install.sh | shollama pull/run/list/rm适用场景: 本地开发、实验、个人使用。
以下数据综合自多个独立基准测试(2024-2025),使用标准配置:
| 框架 | 并发=1 | 并发=16 | 并发=64 | 备注 |
|---|---|---|---|---|
| TensorRT-LLM | ~45 | ~520 | ~1,800 | 原始性能最高 |
| vLLM | ~42 | ~480 | ~1,650 | 最佳平衡 |
| SGLang | ~43 | ~500 | ~1,720 | 复杂负载更优 |
| TGI | ~38 | ~420 | ~1,400 | 中规中矩 |
| Ollama | ~35 | N/A | N/A | 单请求场景 |
数据来源:以上吞吐量数据综合自多个独立基准测试(2024-2025)。
版本信息:vLLM v0.6.x | TensorRT-LLM v0.12.x | SGLang v0.4.x | TGI v2.4.x | Ollama v0.5.x
- Artificial Analysis — LLM Inference Benchmark(独立第三方基准测试平台)
- vLLM 官方 Benchmark
- SGLang 官方 Benchmark
- TensorRT-LLM 官方 Performance Guide
- 社区测试(Reddit、GitHub Discussions 等)
| 框架 | TTFT(P50) | TTFT(P99) |
|---|---|---|
| TensorRT-LLM | ~80ms | ~200ms |
| SGLang | ~90ms | ~250ms |
| vLLM | ~100ms | ~300ms |
| TGI | ~120ms | ~350ms |
| Ollama | ~150ms | ~500ms |
数据来源:TTFT 数据综合自 Artificial Analysis 延迟基准测试、vLLM Benchmark 及 SGLang Performance。测试条件同 2.1 节。
| 量化方法 | 精度 | 特点 | 显存节省 |
|---|---|---|---|
| GPTQ | INT4/INT3 | 校准数据集,高精度 | ~75% |
| AWQ | INT4 | 激活感知,保护重要通道 | ~75% |
| FP8 | FP8 | 无需校准,硬件原生 | ~50% |
| bitsandbytes | INT8/INT4 | 零样本量化 | ~50-75% |
| SqueezeLLM | INT4 | 非均匀量化 | ~75% |
| 框架 | GPTQ | AWQ | FP8 | bitsandbytes | INT8 |
|---|---|---|---|---|---|
| vLLM | ✅ | ✅ | ✅ | ✅ | ✅ |
| TGI | ✅ | ✅ | ❌ | ✅ | ✅ |
| TensorRT-LLM | ✅ | ✅ | ✅ | ❌ | ✅ |
| SGLang | ✅ | ✅ | ✅ | ❌ | ✅ |
| Ollama | ❌ | ❌ | ❌ | ❌ | ✅(Q4_0等) |
Ollama 使用自己的 GGUF 量化格式(Q4_0, Q4_K_M, Q5_K_M, Q8_0 等),不支持 GPTQ/AWQ。
| 策略 | 说明 | 适用场景 |
|---|---|---|
| Tensor Parallelism (TP) | 层内拆分,GPU 间通信频繁 | 单节点多 GPU |
| Pipeline Parallelism (PP) | 层间拆分,通信量低 | 多节点/大模型 |
| Expert Parallelism (EP) | MoE 专家拆分 | Mixtral 等 MoE 模型 |
| Data Parallelism (DP) | 复制模型,处理不同请求 | 提升吞吐量 |
| 框架 | TP | PP | DP | EP | 多节点 |
|---|---|---|---|---|---|
| vLLM | ✅ | ✅ | ✅ | ✅ | ✅ |
| TensorRT-LLM | ✅ | ✅ | ✅ | ✅ | ✅ |
| SGLang | ✅ | ✅ | ✅ | ✅ | ✅ |
| TGI | ✅ | ❌ | ❌ | ❌ | 有限 |
| Ollama | ❌ | ❌ | ❌ | ❌ | ❌ |
单节点多 GPU(8×GPU):
多节点大模型(如 405B):
高吞吐需求:
--data-parallel-size 参数| 场景 | 推荐框架 | 理由 |
|---|---|---|
| 通用生产部署 | vLLM | 性能与易用性最佳平衡 |
| NVIDIA 极致性能 | TensorRT-LLM | 硬件级优化 |
| 复杂 Agent/结构化生成 | SGLang | RadixAttention + 前端语言 |
| HuggingFace 生态 | TGI | Hub 深度集成 |
| 本地开发/实验 | Ollama | 最简部署 |
| MoE 模型 | vLLM 或 TensorRT-LLM | Expert Parallelism 支持 |
| 迁移路径 | 难度 | 说明 |
|---|---|---|
| vLLM → SGLang | 低 | API 兼容,可直接替换 |
| vLLM → TGI | 低 | OpenAI 兼容 API |
| TGI → vLLM | 低 | OpenAI 兼容 API |
| vLLM → TensorRT-LLM | 高 | 需要模型编译,运维复杂度增加 |
| 任意 → Ollama | 低 | 适合开发环境切换 |
本报告基于 2025 年初各框架版本撰写,推理框架领域发展迅速,建议定期查阅各项目 GitHub Release Notes 获取最新信息。