Ollama 本地大模型部署完全指南
本地运行大模型已经不再是难事。Ollama 让你一行命令就能在自己的机器上跑起各种开源模型,不需要 GPU 服务器,不需要复杂的配置。
为什么选择 Ollama?
Ollama 是目前最简单的本地大模型运行方案,它的优势在于:
- 极简安装:一行命令搞定,支持 macOS、Linux、Windows
- 模型丰富:支持 Llama 3、Qwen、DeepSeek、Mistral 等 100+ 模型
- 兼容 OpenAI API:本地启动后,任何支持 OpenAI 的工具都能直接用
- 自动量化:根据你的硬件自动选择合适的量化版本
快速开始
安装 Ollama 只需要一行命令:
curl -fsSL https://ollama.ai/install.sh | sh 安装完成后,运行一个模型:
ollama run llama3:8b 第一次运行会自动下载模型,之后就直接启动了。
API 调用
Ollama 启动后会在 localhost:11434 提供 OpenAI 兼容的 API:
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model":"llama3:8b","messages":[{"role":"user","content":"你好"}]}' 推荐模型
| 模型 | 大小 | 适用场景 |
|---|---|---|
| qwen3:8b | 5GB | 中文对话、通用任务 |
| llama3:8b | 4.7GB | 英文为主、代码辅助 |
| deepseek-coder:6.7b | 4GB | 编程专用 |
| phi3:mini | 2.3GB | 资源受限环境 |
💡 提示:如果你有 16GB 以上内存,推荐直接上 7B/8B 模型。8GB 内存建议用 3B-4B 的小模型。
进阶配置
修改默认模型存储路径
模型默认存在 ~/.ollama/models,如果磁盘空间不够,可以修改:
export OLLAMA_MODELS=/data/ollama/models 设置 GPU 层数
如果你的 GPU 显存不够加载整个模型,可以设置只用 GPU 加载部分层:
export OLLAMA_NUM_GPU=20 # 用 GPU 加载 20 层 总结
Ollama 是目前入门本地大模型的最佳选择。简单、快速、兼容性好。等你熟悉了之后,可以再探索 vLLM、llama.cpp 等更专业的方案。