Ollama 本地大模型部署完全指南

2026-05-28 · 部署教程 / Ollama / 本地推理

本地运行大模型已经不再是难事。Ollama 让你一行命令就能在自己的机器上跑起各种开源模型，不需要 GPU 服务器，不需要复杂的配置。

为什么选择 Ollama？

Ollama 是目前最简单的本地大模型运行方案，它的优势在于：

极简安装：一行命令搞定，支持 macOS、Linux、Windows
模型丰富：支持 Llama 3、Qwen、DeepSeek、Mistral 等 100+ 模型
兼容 OpenAI API：本地启动后，任何支持 OpenAI 的工具都能直接用
自动量化：根据你的硬件自动选择合适的量化版本

快速开始

安装 Ollama 只需要一行命令：

curl -fsSL https://ollama.ai/install.sh | sh

安装完成后，运行一个模型：

ollama run llama3:8b

第一次运行会自动下载模型，之后就直接启动了。

API 调用

Ollama 启动后会在 localhost:11434 提供 OpenAI 兼容的 API：

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"llama3:8b","messages":[{"role":"user","content":"你好"}]}'

模型	大小	适用场景
qwen3:8b	5GB	中文对话、通用任务
llama3:8b	4.7GB	英文为主、代码辅助
deepseek-coder:6.7b	4GB	编程专用
phi3:mini	2.3GB	资源受限环境

进阶配置

修改默认模型存储路径

模型默认存在 ~/.ollama/models，如果磁盘空间不够，可以修改：

export OLLAMA_MODELS=/data/ollama/models

设置 GPU 层数

如果你的 GPU 显存不够加载整个模型，可以设置只用 GPU 加载部分层：

export OLLAMA_NUM_GPU=20  # 用 GPU 加载 20 层

总结

Ollama 是目前入门本地大模型的最佳选择。简单、快速、兼容性好。等你熟悉了之后，可以再探索 vLLM、llama.cpp 等更专业的方案。