MinerU API 服务Docker一键部署(附源码)

一、关于MinerU

一站式、开源、高质量的数据提取工具,支持多种功能,如提取 PDF、word、markdown 等格式的内容。

1. 主要功能

  • 删除页眉、页脚、脚注、页码等元素,保持语义连贯
  • 对多栏输出符合人类阅读顺序的文本
  • 保留原文档的结构,包括标题、段落、列表等
  • 提取图像、图片标题、表格、表格标题
  • 自动识别文档中的公式并将公式转换成latex
  • 自动识别文档中的表格并将表格转换成latex
  • 乱码PDF自动检测并启用OCR
  • 支持CPU和GPU环境
  • 支持windows/linux/mac平台

二、安装和使用

1. 软硬件要求说明

以下是根据您提供的信息整理的表格:

操作系统
Ubuntu 22.04 LTS Windows 10 / 11 macOS 11+
CPU x86_64 x86_64 x86_64 / arm64
内存 大于等于16GB,推荐32G以上
python版本 3.10
Nvidia Driver 版本 latest(专有驱动) latest None
CUDA环境 自动安装[12.1(pytorch)+11.8(paddle)] 11.8(手动安装)+cuDNN v8.7.0(手动安装) None
GPU硬件支持列表 最低要求 8G+显存 3060ti/3070/3080/3080ti/4060/4070/4070ti
8G显存仅可开启lavout和公式识别加速
None
推荐配置 16G+显存 3090/3090ti/4070tisuper/4080/4090
16G及以上可以同时开启layout,公式识别和ocr加速
24G及以上可以同时开启layout,公式识别,ocr加速和表格识别

请注意,对于macOS来说,由于其不支持NVIDIA的CUDA技术,因此相关的GPU加速功能无法使用。此外,具体的硬件建议(如推荐的GPU型号)是针对具有特定需求的应用场景,比如深度学习或视频编辑等需要大量图形处理的任务。

2. Docker 一键部署

Docker 镜像构建源码:miner-u docker构建源码

  • 拉取代码
git clone https://gitee.com/ai-tzchao/miner-u.git
  • 构建镜像
cd miner-u
docker build -t tzchao/mineru-api:1.3.3 .
  • docker-compose.yaml
version: '3.8'
services:
  mineru:
    image: tzchao/mineru-api:1.3.3
    container_name: miner-u
    ports:
      - "5098:5098"
    environment:
      IMAGE_PREFIX_DEV: http://abc.com/     # 开发环境图片文件访问域名
      IMAGE_PREFIX_PRO: http://abcd.com/   # 生产环境图片文件访问域名
    volumes:
      - ./volumes/models:/app/models     # 文档提取用到的模型存储目录
      - ./volumes/files:/app/files               # 文档提取中图片文件保存目录
    restart: always
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    ipc: host
    runtime: nvidia


networks:
  mineru-net:
    driver: bridge

  • 启动服务
docker compose up -d miner-u
  • 请求示例
curl --location 'http://10.10.8.154:5098/file_parse' \
--form 'parse_method="auto"' \
--form 'is_json_md_dump="true"' \
--form 'file=@"/C:/Users/tzcha/Desktop/miner-u-测试图片.docx"' \    # 要解析的文档地址
--form 'env="pro"'

输出结果:
MinerU API 服务Docker一键部署(附源码)_第1张图片

你可能感兴趣的:(docker,容器,运维)