Python解析PDF:支持本地/在线文档的解析、提取文本及表格信息(采用pdfplumber包)

 

番外话

被PDF折磨了两年多,今天终于找到一个比较好的解析方案,是用pdfplumber包解析的,并做了一些封装。之前用pdfminer解析的效果很一般,提取效果无法忍受的那种。把解析方法写出来后,我自己也是老泪纵横,给大家分享一下

 

注意事项

pdfplumber是对pdfminer的再封装,最好先安装pdfminer3k,再安装pdfplumber,否则代码很容易报错

 

源码

# -*- coding: utf-8 -*-
# @Author: 二师父
# @Vtime: 2020-09-04
# @Describe: 解析PDF
# @Blog: https://blog.csdn.net/weixin_39181440/article/details/108404354
# @AT: THS
# @Tips: pdfplumber是对pdfminer的再封装,最好先安装pdfminer3k,再安装pdfplumber,否则代码很容易报错


import pdfplumber
import re, time, os


# <--------------------------------------------------------------------------
# 老版本解析PDF
def parsepdf_old(path_or_url, proxies=None):
	# 采取惰性加载
	from pdfminer.pdfparser import PDFParser
	from pdfminer.pdfdocument import PDFDocument
	from pdfminer.pdfpage import PDFPage
	from pdfminer.pdfpage import PDFTe

你可能感兴趣的:(#,Python【文件相关】,python)