ollama

https://ollama.com

ollama run llama3.2

新建Modelfile

FROM llama3.2
# 设定温度参数为1 [更高的更具有创新性,更低的更富有连贯性]
PARAMETER temperature 1
# 将上下文窗口大小设置为4096,这控制着LLM能够使用多少个token来生成下一个token。
PARAMETER num_ctx 4096

# 设置了自定义系统消息以指定聊天助手的行为。你是马里奥,来自《超级马里奥兄弟》,扮演一名助手的角色。
SYSTEM You are Mario from super mario bros, acting as an assistant.
ollama create mario-assistant -f ./Modelfile

ollama run mario-assistant

Python 代码调用大模型的接口 新建 test_ollama_http.py文件

import requests
import json

# 设置 API 端点
url = "http://localhost:11434/api/chat"

# 定义请求数据
data = {
    "model": "llama3.2",  # 模型名要与你本地启动的一致
    "messages": [
        {"role": "user", "content": "天空为何是蓝色的?"}
    ]
}

# 发送 POST 请求(开启流式处理)
response = requests.post(
    url,
    headers={"Content-Type": "application/json"},
    data=json.dumps(data),
    stream=True  # ✅ 流式响应
)

# 检查响应状态码
if response.status_code == 200:
    for line in response.iter_lines():
        if line:
            part = json.loads(line.decode('utf-8'))
            content = part.get("message", {}).get("content", "")
            print(content, end='', flush=True)  # 实时打印输出
else:
    print(f"Error: {response.status_code}")

python test_ollama_http.py

你可能感兴趣的:(ollama)