llama.cpp

高性能C++大模型推理引擎，本地部署的最佳选择

开发者Georgi Gerganov

许可证MIT

平台Windows / macOS / Linux

版本latest

费用免费

纯C++实现，极致的推理性能支持量化压缩，大幅降低内存占用广泛的硬件支持（CPU/GPU/Metal/Vulkan）兼容OpenAI API，易于集成模型加载速度比Ollama快2倍支持超过32K token的长上下文窗口

llama.cpp：本地大模型推理的性能之王

小新软件平替发表于2026-05-03

在本地运行大语言模型（LLM）已经从极客专属变成了越来越多开发者和企业的选择。而在众多本地推理工具中，llama.cpp 凭借其卓越的性能和极高的灵活性，正在成为追求极致效率用户的首选。尤其在与同类工具 Ollama 的对比中，llama.cpp 的优势愈发明显。

llama.cpp 是由 Georgi Gerganov 于 2023 年 3 月开源的纯 C++ 实现的大模型推理引擎。它的设计目标很简单：让 LLM 能够在普通消费级硬件上高效运行，无需高端 GPU。

从出生之日起，llama.cpp 就以其极致的性能优化著称。它不仅是独立的推理引擎，更成为了 Ollama、LM Studio、LocalAI 等众多上层工具的底层基石。可以说，如果你在用这些工具，你就已经在受益于 llama.cpp 的优化。

这是 llama.cpp 最核心的优势。在多项基准测试中，llama.cpp 展现出明显领先的性能表现：

在相同硬件环境下运行 DeepSeek R1 Distill 1.5B 模型，llama.cpp 完成推理耗时 6.85 秒，而 Ollama 需要 8.69 秒，**性能差距达 26.8%**。
模型加载速度：llama.cpp 只需 241ms，Ollama 则是 553ms，快了整整 2 倍。
提示词处理速度：llama.cpp 达到 416.04 tokens/s，Ollama 仅为 42.17 tokens/s，快了约 10 倍。

对于追求性能的生产环境而言，这个差距意味着更低的延迟、更好的用户体验和更少的计算资源消耗。

llama.cpp 原生支持多种量化方法（GGUF 格式），能够在保持模型质量的同时大幅压缩体积和内存占用。这意味着即使是 70B 参数的大模型，也可以通过量化在 16GB 内存的机器上运行。

llama.cpp 支持多种计算后端：

llama.cpp 自带的 llama-server 工具完整实现了 OpenAI API 规范，包括 /v1/chat/completions 等接口。这意味着你可以零成本迁移现有的基于 OpenAI API 构建的应用，无需修改任何代码。

相比 Ollama 的”一键运行”，llama.cpp 提供了更细粒度的控制：

llama.cpp 默认支持超过 32,000 token 的上下文窗口，而 Ollama 默认约为 11,000 token。对于需要处理长文档、长代码库分析等场景，这是一个显著优势。