Ollama

一键运行本地大模型，让AI触手可及

开发者Ollama Team

许可证MIT

平台Windows / macOS / Linux

版本latest

费用免费

官网ollama.com

GitHubgithub.com

特性

一键安装，三分钟上手自动模型管理：下载、加载、切换一条命令支持 Tool Use（函数调用），可用于 AI Agent 开发Modelfile 配置像 Dockerfile一样灵活OpenAI API 兼容，现有应用零成本迁移跨平台支持：macOS / Windows / Linux

替代方案

llama.cpp

AI工具开源 AI 本地部署

Ollama：让本地大模型运行变得前所未有的简单

小新软件平替发表于2026-05-03

Ollama：让本地大模型运行变得前所未有的简单

当你想要在本地跑一个大语言模型时，是否曾被复杂的编译参数、命令行配置、和各种环境问题劝退过？Ollama 就是来解决这个问题的。它让本地 AI 变得和「下载安装打开用」一样简单——而这背后靠的正是强大的底层引擎 llama.cpp。

概述

Ollama（全称 Optimized LLaMA）诞生于 2023 年 7 月，由 Jeffrey Morgan 发起。它基于 llama.cpp 构建，目标是：让每个人都能轻松地在本地运行大语言模型。

如果说 llama.cpp 是一台精密的超跑引擎，那么 Ollama 就是把它装进了一辆「一键启动」的家庭轿车里——你不需要懂发动机构造，踩油门就走。

Ollama 继承了 llama.cpp 的高性能，同时大幅降低了使用门槛，让更多开发者、创作者、和 AI 爱好者能够零门槛地进入本地 AI 的世界。

主要特性

🚀 三分钟上手，无需折腾

Ollama 最大的卖点就是极致的易用性：

# 安装（macOS/Linux）
curl -fsSL https://ollama.com/install.sh | sh

# 运行模型——只需这一条命令
ollama run llama3

没有编译、没有环境配置、没有漫长的调试。Ollama 把所有复杂性都封装在了内部，让你可以专注于真正重要的事：和模型对话。

📦 自动模型管理：一条命令搞定一切

Ollama 内置了智能的模型管理系统：

**ollama run <模型名>**：自动下载模型文件并启动
自动加载：收到 API 请求时自动加载模型
自动卸载：内存紧张时自动卸载不活跃的模型
模型切换：输入不同的模型名即可切换，无需手动管理文件

这意味着你可以在不同模型之间无缝切换，从 llama3 到 mistral 再到 qwen2，一个命令全搞定。

🔧 Modelfile：像 Dockerfile 一样灵活

Ollama 提供了 Modelfile 功能，类似于 Docker 的 Dockerfile，让你可以通过文本文件定义模型的配置：

FROM llama3
PARAMETER temperature 0.7
PARAMETER top_p 0.9
SYSTEM "你是一个专业的技术写作助手，使用简洁明了的语言。"

你可以：

调整模型参数（temperature、top_p、context 等）
设置系统提示词
导入自定义 GGUF 模型文件
打包分享你的配置

这让 Ollama 既适合快速尝鲜，也支持深度定制。

🤖 Tool Use：AI Agent 开发的基础

对于构建 AI Agent（智能体）应用，Tool Use（函数调用）是一个关键能力。Ollama 原生支持 Tool Use，允许模型调用外部工具和 API——这为本地 AI 落地到真实业务流程打开了大门。

相比之下，llama.cpp 的命令行工具 llama-server 目前不原生支持 Tool Use。

📡 OpenAI API 兼容

Ollama 的 API 接口与 OpenAI API 高度兼容，只需将 base URL 指向本地：

from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
response = client.chat.completions.create(
    model="llama3",
    messages=[{"role": "user", "content": "Hello!"}]
)

现有的基于 OpenAI API 构建的应用，可以零成本迁移到 Ollama，无需修改业务代码。

🖥️ 跨平台支持

Ollama 支持三大桌面操作系统：

macOS：原生支持 Apple Silicon（M1/M2/M3/M4），Metal 加速开箱即用
Windows：自带 CUDA 支持，NVIDIA 用户自动使用 GPU 加速
Linux：支持 CUDA 和 ROCm，适配各类服务器环境

适用场景

适合使用 Ollama 的用户

AI 初学者：想要探索本地大模型但不熟悉命令行环境
快速原型开发：需要快速验证 AI 想法，不想在环境配置上浪费时间
开发者日常调试：在开发流程中频繁切换不同模型进行测试
AI Agent 开发者：需要 Tool Use 功能来构建智能体应用
多模型用户：经常需要在不同模型之间切换对比效果

不适合的场景

追求极致性能：对推理延迟和吞吐量有严苛要求的场景
极简环境部署：磁盘空间极其有限（Ollama 安装包约 4.6GB）
需要超长上下文：处理超过 11K token 的超长文档时
高度定制需求：需要修改推理引擎本身的行为

与同类软件对比

对比项	Ollama	llama.cpp
上手难度	✅ 极简，一键运行	⚠️ 需要手动编译配置
模型管理	✅ 自动下载/加载/切换	❌ 需要手动管理文件
推理性能	⚠️ 慢约 27%-80%	✅ 极致优秀
安装体积	⚠️ 约 4.6GB	✅ 约 90MB
Tool Use 支持	✅ 原生支持	❌ 不支持
Modelfile 配置	✅ 支持	❌ 不支持
上下文窗口	⚠️ 默认约 11K	✅ 32K+
OpenAI API 兼容	✅ 兼容	✅ 兼容
适用人群	开发者、爱好者	性能极客、深度定制者
底层引擎	基于 llama.cpp	自研 C++
开源协议	MIT	MIT