LibreOffice转换word文档

目录

  • 一、前言
  • 二、LibreOffice转换的核心代码
  • 三、转换后的Pdf提取解析情况

一、前言

     对于word文档,这里介绍一种解析文本、提取图片的方式。具体技术方案:LibreOffice将docx转换为pdf + 再pdfplumber按页提取文本。
该方案说明
     LibreOffice 是一个跨平台的开源办公套件,支持 Linux、Windows 和 macOS 操作系统。目前为止,LibreOffice 是最佳的把docx转换为pdf的方式!
但是一个严重的缺点:按照默认参数去生成pdf,会有一些属性会丢失【比如pdf中的图片被设置为共享形式,导致解析pdf图片时不能判断出图片来自哪个页!】。

二、LibreOffice转换的核心代码

def convert_word_to_pdf(input_path, output_dir)

你可能感兴趣的:(知识图谱,word,java)