Ollama

Ollama

一键运行本地大模型,让AI触手可及

开发者Ollama Team
许可证MIT
平台Windows / macOS / Linux
版本latest
费用免费

特性

一键安装,三分钟上手自动模型管理:下载、加载、切换一条命令支持 Tool Use(函数调用),可用于 AI Agent 开发Modelfile 配置像 Dockerfile一样灵活OpenAI API 兼容,现有应用零成本迁移跨平台支持:macOS / Windows / Linux

替代方案

Ollama:让本地大模型运行变得前所未有的简单

Ollama:让本地大模型运行变得前所未有的简单

当你想要在本地跑一个大语言模型时,是否曾被复杂的编译参数、命令行配置、和各种环境问题劝退过?Ollama 就是来解决这个问题的。它让本地 AI 变得和「下载安装打开用」一样简单——而这背后靠的正是强大的底层引擎 llama.cpp。

概述

Ollama(全称 Optimized LLaMA)诞生于 2023 年 7 月,由 Jeffrey Morgan 发起。它基于 llama.cpp 构建,目标是:让每个人都能轻松地在本地运行大语言模型

如果说 llama.cpp 是一台精密的超跑引擎,那么 Ollama 就是把它装进了一辆「一键启动」的家庭轿车里——你不需要懂发动机构造,踩油门就走。

Ollama 继承了 llama.cpp 的高性能,同时大幅降低了使用门槛,让更多开发者、创作者、和 AI 爱好者能够零门槛地进入本地 AI 的世界。

主要特性

🚀 三分钟上手,无需折腾

Ollama 最大的卖点就是极致的易用性

1
2
3
4
5
# 安装(macOS/Linux)
curl -fsSL https://ollama.com/install.sh | sh

# 运行模型——只需这一条命令
ollama run llama3

没有编译、没有环境配置、没有漫长的调试。Ollama 把所有复杂性都封装在了内部,让你可以专注于真正重要的事:和模型对话

📦 自动模型管理:一条命令搞定一切

Ollama 内置了智能的模型管理系统:

  • **ollama run <模型名>**:自动下载模型文件并启动
  • 自动加载:收到 API 请求时自动加载模型
  • 自动卸载:内存紧张时自动卸载不活跃的模型
  • 模型切换:输入不同的模型名即可切换,无需手动管理文件

这意味着你可以在不同模型之间无缝切换,从 llama3 到 mistral 再到 qwen2,一个命令全搞定。

🔧 Modelfile:像 Dockerfile 一样灵活

Ollama 提供了 Modelfile 功能,类似于 Docker 的 Dockerfile,让你可以通过文本文件定义模型的配置:

1
2
3
4
FROM llama3
PARAMETER temperature 0.7
PARAMETER top_p 0.9
SYSTEM "你是一个专业的技术写作助手,使用简洁明了的语言。"

你可以:

  • 调整模型参数(temperature、top_p、context 等)
  • 设置系统提示词
  • 导入自定义 GGUF 模型文件
  • 打包分享你的配置

这让 Ollama 既适合快速尝鲜,也支持深度定制

🤖 Tool Use:AI Agent 开发的基础

对于构建 AI Agent(智能体)应用,Tool Use(函数调用)是一个关键能力。Ollama 原生支持 Tool Use,允许模型调用外部工具和 API——这为本地 AI 落地到真实业务流程打开了大门。

相比之下,llama.cpp 的命令行工具 llama-server 目前不原生支持 Tool Use。

📡 OpenAI API 兼容

Ollama 的 API 接口与 OpenAI API 高度兼容,只需将 base URL 指向本地:

1
2
3
4
5
6
from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
response = client.chat.completions.create(
model="llama3",
messages=[{"role": "user", "content": "Hello!"}]
)

现有的基于 OpenAI API 构建的应用,可以零成本迁移到 Ollama,无需修改业务代码。

🖥️ 跨平台支持

Ollama 支持三大桌面操作系统:

  • macOS:原生支持 Apple Silicon(M1/M2/M3/M4),Metal 加速开箱即用
  • Windows:自带 CUDA 支持,NVIDIA 用户自动使用 GPU 加速
  • Linux:支持 CUDA 和 ROCm,适配各类服务器环境

适用场景

适合使用 Ollama 的用户

  • AI 初学者:想要探索本地大模型但不熟悉命令行环境
  • 快速原型开发:需要快速验证 AI 想法,不想在环境配置上浪费时间
  • 开发者日常调试:在开发流程中频繁切换不同模型进行测试
  • AI Agent 开发者:需要 Tool Use 功能来构建智能体应用
  • 多模型用户:经常需要在不同模型之间切换对比效果

不适合的场景

  • 追求极致性能:对推理延迟和吞吐量有严苛要求的场景
  • 极简环境部署:磁盘空间极其有限(Ollama 安装包约 4.6GB)
  • 需要超长上下文:处理超过 11K token 的超长文档时
  • 高度定制需求:需要修改推理引擎本身的行为

与同类软件对比

对比项 Ollama llama.cpp
上手难度 ✅ 极简,一键运行 ⚠️ 需要手动编译配置
模型管理 ✅ 自动下载/加载/切换 ❌ 需要手动管理文件
推理性能 ⚠️ 慢约 27%-80% ✅ 极致优秀
安装体积 ⚠️ 约 4.6GB ✅ 约 90MB
Tool Use 支持 ✅ 原生支持 ❌ 不支持
Modelfile 配置 ✅ 支持 ❌ 不支持
上下文窗口 ⚠️ 默认约 11K ✅ 32K+
OpenAI API 兼容 ✅ 兼容 ✅ 兼容
适用人群 开发者、爱好者 性能极客、深度定制者
底层引擎 基于 llama.cpp 自研 C++
开源协议 MIT MIT

总结

Ollama 的出现让本地大模型从「极客玩具」变成了「大众工具」。如果你不想在环境配置上耗费精力,只想快速把玩最新的 AI 模型,Ollama 是最佳选择。

当然,高性能的代价是一定程度的抽象损耗——如果你追求极致性能,llama.cpp 仍然是底层首选。但对于大多数开发者和 AI 爱好者来说,Ollama 提供的易用性和灵活性已经远超性能差距带来的损失

作为连接底层能力和用户体验的桥梁,Ollama 证明了:最好的技术,是让你感受不到技术存在的技术