Ollama 本地大模型部署完全指南

本地运行大模型已经不再是难事。Ollama 让你一行命令就能在自己的机器上跑起各种开源模型,不需要 GPU 服务器,不需要复杂的配置。

为什么选择 Ollama?

Ollama 是目前最简单的本地大模型运行方案,它的优势在于:

快速开始

安装 Ollama 只需要一行命令:

curl -fsSL https://ollama.ai/install.sh | sh

安装完成后,运行一个模型:

ollama run llama3:8b

第一次运行会自动下载模型,之后就直接启动了。

API 调用

Ollama 启动后会在 localhost:11434 提供 OpenAI 兼容的 API:

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"llama3:8b","messages":[{"role":"user","content":"你好"}]}'

推荐模型

模型大小适用场景
qwen3:8b5GB中文对话、通用任务
llama3:8b4.7GB英文为主、代码辅助
deepseek-coder:6.7b4GB编程专用
phi3:mini2.3GB资源受限环境
💡 提示:如果你有 16GB 以上内存,推荐直接上 7B/8B 模型。8GB 内存建议用 3B-4B 的小模型。

进阶配置

修改默认模型存储路径

模型默认存在 ~/.ollama/models,如果磁盘空间不够,可以修改:

export OLLAMA_MODELS=/data/ollama/models

设置 GPU 层数

如果你的 GPU 显存不够加载整个模型,可以设置只用 GPU 加载部分层:

export OLLAMA_NUM_GPU=20  # 用 GPU 加载 20 层

总结

Ollama 是目前入门本地大模型的最佳选择。简单、快速、兼容性好。等你熟悉了之后,可以再探索 vLLM、llama.cpp 等更专业的方案。