Ollama 是一个轻量级的大语言模型部署工具,支持快速在本地拉取、运行主流开源模型(如 LLaMA3、Mistral、Gemma 等)。它简化了模型部署的过程,内置 RESTful API,使得开发者可以像调用本地服务一样使用强大的大模型能力。
本文将介绍如何在本地部署 Ollama 模型,并通过 Java 项目调用 Ollama 提供的 API 接口,实现本地化智能问答、生成内容等功能。
curl -fsSL https://ollama.com/install.sh | sh
ollama --version
ollama version 0.1.34
如果网络无法连接 Ollama 官网,也可以手动下载 tar 包解压使用。
以下载 llama3 模型为例:
ollama pull llama3
等待模型拉取完成后,使用以下命令查看模型:
ollama list
ollama run llama3
该命令将启动一个本地 HTTP 服务,默认监听 http://localhost:11434,支持接收 POST 请求。
Ollama 提供 REST API 接口,Java 可以通过 HttpClient、OkHttp 等方式发起 HTTP POST 请求,传入模型名称和 prompt。
POST http://localhost:11434/api/generate
{
"model": "llama3",
"prompt": "介绍一下Ollama",
"stream": false
}
{
"model": "llama3",
"created_at": "2025-07-27T12:34:56Z",
"response": "Ollama 是一个..."
}
✅ 使用原生 HttpClient(Java 11+)
import java.net.URI;
import java.net.http.HttpClient