CentOS 7部署Ollama运行DeepSeek模型教程

第三部分

    • @[TOC](第三部分)
    • 十、投喂数据与知识库训练(集成Open WebUI图形化上传)
      • 1. 数据准备与格式规范
        • ▶ 文件格式支持清单
        • ▶ 目录权限配置
      • 2. 数据上传全流程(命令行+图形化)
        • ▶ 命令行批量上传
        • ▶ Open WebUI图形化上传
      • 3. 向量检索优化(nomic-embed-text模型专项)
        • ▶ nomic-embed-text模型说明
        • ▶ 检索性能调优
      • 4. 知识库质量验证
        • ▶ 检索准确性测试
        • ▶ 性能压测工具
    • 十一、生产级运维管理
      • 1. 监控告警配置
      • 2. 灾备恢复方案


十、投喂数据与知识库训练(集成Open WebUI图形化上传)

1. 数据准备与格式规范

▶ 文件格式支持清单
文件类型 预处理工具 转换命令示例 适用场景
PDF poppler-utils pdftotext 手册.pdf 技术文档/合同扫描件
Word libreoffice-headless libreoffice --convert-to txt 报告.docx 企业报告/文书
Markdown pandoc pandoc README.md -o 说明.txt 开发文档/项目说明
Excel csvkit in2csv 数据表.xlsx > 数据表.csv 财务数据/统计报表
纯文本 无需处理 - 日志文件/配置文件
# 安装预处理工具链(CentOS 7兼容方案)  
sudo yum install -y poppler-utils libreoffice-headless pandoc  
sudo pip3 install csvkit  
▶ 目录权限配置
# 创建标准化知识库目录  
mkdir -p /opt/knowledge/{
   技术文档,财务报告,客户资料}  

# 设置Ollama服务用户权限(关键步骤!)  
sudo chown -R ollama:ollama /opt/knowledge  
sudo chmod -R 755 /opt/knowledge  

# 验证权限  
ls -ld /opt/knowledge  
# 预期输出:drwxr-xr-x 3 ollama ollama 4096 Mar 15 15:00 /opt/knowledge

2. 数据上传全流程(命令行+图形化)

▶ 命令行批量上传
# 创建自动化上传脚本 knowledge_upload.sh  
tee /opt/scripts/knowledge_upload.sh <<'EOF'  
#!/bin/bash  
OLLAMA_ENDPOINT="http://localhost:11434/api/attach"  

find /opt/knowledge -type f \( -name "*.txt" -o -name "*.md" \) | while read file; do  
  echo "正在处理: $file"  
  curl -X POST $OLLAMA_ENDPOINT -d "{  
    \"model\": \"de

你可能感兴趣的:(人工智能,centos,linux)