Ollama 本地部署完全指南:在自己电脑上跑大模型
·3 分钟阅读·45 次阅读
Ollama 本地部署完全指南
想在自己的电脑上运行大模型?Ollama 让这一切变得简单。本文将带你从安装到部署,全程不超过 10 分钟。
什么是 Ollama?
Ollama 是一个开源的本地大模型运行工具,支持 macOS、Linux 和 Windows。它的特点是:
- 极简安装:一条命令搞定
- 模型管理:自动下载、量化、运行
- API 兼容:提供 OpenAI 兼容的 API 接口
- 无需 GPU:CPU 也能跑(当然有 GPU 更快)
安装
macOS / Linux
curl -fsSL https://ollama.ai/install.sh | sh
Windows
访问 ollama.ai 下载安装包,双击安装即可。
运行第一个模型
# 运行 DeepSeek V4
ollama run deepseek-v4
运行 Qwen 2.5
ollama run qwen2.5:14b
运行 LLaMA 3
ollama run llama3:8b
首次运行会自动下载模型(几 GB 到几十 GB),后续启动秒开。
常用命令
| 命令 | 说明 |
|---|---|
ollama list |
查看已下载的模型 |
ollama pull 模型名 |
下载模型 |
ollama run 模型名 |
运行模型(交互式) |
ollama rm 模型名 |
删除模型 |
ollama serve |
启动 API 服务 |
使用 API
Ollama 启动后会在 http://localhost:11434 提供 OpenAI 兼容 API:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # 随意填写
)
response = client.chat.completions.create(
model="deepseek-v4",
messages=[{"role": "user", "content": "用 Python 写一个快速排序"}]
)
print(response.choices[0].message.content)
硬件建议
| 模型大小 | 最低内存 | 推荐配置 |
|---|---|---|
| 7B | 8 GB | 16 GB RAM |
| 14B | 16 GB | 32 GB RAM |
| 70B | 64 GB | 64 GB RAM + GPU |
常见问题
Q:没有 GPU 能跑吗?
A:可以,7B 模型在 16GB 内存的笔记本上就能流畅运行,只是速度稍慢。
Q:模型存在哪里?
A:macOS 在 ~/.ollama/models,Linux 在 /usr/share/ollama/.ollama/models。
Q:如何连接词元圈?
A:Ollama 的 API 与 OpenAI 兼容,你可以用词元圈的 API Key 替换本地调用,实现云端+本地混合部署。
总结
Ollama 是本地运行大模型的最佳选择。无论你是想保护隐私、节省 API 费用,还是想离线使用 AI,Ollama 都能满足你的需求。
💬 评论功能暂未开放,敬请期待