江湖不当人

Python：PDF文件处理（数据处理）

工作中有对PDF文件进行数据抽取，现在总结归纳一下相应的方法，本文包括一下内容：

PDF文件分割、拼接；

PDF文件抽取图片，简单的图片识别；

PDF文件抽取表格；

PDF文件抽取文本；

PDF文件转docx文件；

docx文件数据抽取；

目的：尽可能的将pdf中的数据，抽取出来，尤其是文本和表格数据尽可能的精准。

Python版本：Python3.8

一、PDF文件分割、拼接

使用场景：什么时候会用到这个功能呢？比如你爬取了一堆的PDF文件，但是这些PDF文件中存在一些干扰页，比如广告页。这种情况下，你就需要对PDF文件进行分割、拼接，在本文中，将会为大家演示这个方式的另外一个用途。

import os
from PyPDF2 import PdfFileWriter, PdfFileReader


def clear_dir(dir_path):
    """清空目录下的文件"""
    names = os.listdir(dir_path)
    for name in names:
        file_path = os.path.join(dir_path, name)
        cmd = 'del %s' % file_path    #这个是windows命令
        #cmd = 'rm -rf %s' % file_path  #这个是Linux的命令
        cmd = cmd.replace('/', '\\')  #为啥要这个？因为windows命令不支持/所以需要替换，Linux命令没有遇见这个问题；
        os.system(cmd)  #可以通过返回值来判断是否执行成功：0成功，其他失败


def split_pdf(pdf, output_dir):
    """pdf按每页拆分"""
    clear_dir(output_path)
    # 获取 PdfFileReader 对象
    reader = PdfFileReader(pdf_file)
    pages_num = reader.getNumPages()
    # writer = PdfFileWriter() 生成一个文件
    for index in range(pages_num):
        #可以通过对index判断分割想要的
        writer = PdfFileWriter()  #按照每页来分割pdf
        pageObj = reader.getPage(index)
        writer.addPage(pageObj)
        # 添加完每页，再一起保存至文件中；如果要输出一个文件，后面这些放置到循环外即可
        file_name = os.path.join(output_path, str(index) + '.pdf')
        with open(file_name, 'wb') as fw:
            writer.write(fw)

二、PDF文件抽取图片，简单的图片识别

我对机器学习了解不多，补充这个也是由于在开发中有这么一个需求。使用场景，需要批量的PDF文件重命名，命名中需要包含发布的机构，这个机构的名称可以在首页获取，但是是一个logo。观察发现，logo中包含了机构名称，所以只需要对logo识别中文即可：

抽取图片：网络上找的代码(太多出处了，懒的写来源了)，由于使用的版本不一致，部分代码有微调，这个也是我比较吐槽的地方，测试了半天。

文字识别

import fitz
import re
import os


def save_pdf_img(path, save_path):
    '''
    path: pdf的路径
    save_path : 图片存储的路径
    '''
    # 使用正则表达式来查找图片
    checkXO = r"/Type(?= */XObject)"
    checkIM = r"/Subtype(?= */Image)"
    # 打开pdf
    doc = fitz.open(path)
    # 图片计数
    imgcount = 0
    # 获取对象数量长度
    lenXREF = doc.xref_length()

    # 遍历每一个图片对象
    for i in range(1, lenXREF):
        # 定义对象字符串
        text = doc.xref_object(i)
        #         print(i,text)
        isXObject = re.search(checkXO, text)
        # 使用正则表达式查看是否是图片
        isImage = re.search(checkIM, text)
        # 如果不是对象也不是图片，则continue
        if not isXObject or not isImage:
            continue
        imgcount += 1
        # 根据索引生成图像
        pix = fitz.Pixmap(doc, i)
        # 根据pdf的路径生成图片的名称
        new_name = "img{}.png".format(imgcount)
        new_name = os.path.join(save_path, new_name)
        pix.save(new_name)
        # 释放资源
        pix = None

第三方包：paddleocr，安装教程网上都有，自己搜索即可

from paddleocr import PaddleOCR
import logging


#将一些日志信息过滤掉
logging.disable(logging.DEBUG)
logging.disable(logging.WARNING)


ocr = PaddleOCR(use_angle_cls=True, lang='ch')
result = ocr.ocr(img_path, cls=True)
if len(result) != 1:
    print('result num=', len(result))
    exit()
result = result[0]
lines = []
#可以直接答应result看看都是些什么结构
for line in result:
    lines.append(line[1][0])
#这就是识别出来的文本
print(lines)

效果：对于正规的的字体识别还是很好的，包括繁体，可能是logo图中的文本比较简单的原因，没有深究，文本识别技术还未深入学习，不发表言论。

三、PDF文件抽取表格、文本

PDF文件的数据组成：主要是文本、图片、表格，这三部分组成，但是也会穿插流程图、各种柱状图等。

Python可以抽取的PDF表格、文本数据的第三方包：pdfplumber，tabula，camelot

（一）、pdfplumber

1、pdfplumber：可以说是目前所有包中做的最好的一个包。

优点：

①每页单独对象，支持文本、表格数据的抽取（亮点）；

②文本抽取：保留了文本的格式，比如换行位置有空格，可以通过这个特点将一段的文本整合；

③表格数据抽取：不会被换行数据所干扰；

缺点：

①文本抽取：如果这页有表格数据，抽取到的文本数据中会包含表格数据(也可能是一个优点？？？)。

②表格数据抽取：对于有合并单元格的表格，无法还原表格结构。

③表格数据抽取：表格数据不能100%保证和原数据一致，可能少那么接个字，可能识别出错等。

④表格数据抽取（缺陷）：最主要的还是对无边界的表格，效果很差，会丢失边缘的数据！！！

⑤表格数据抽取：会被流程图、柱状图干扰；

简单使用：

import pdfplumber
pdf = r'../data/text.pdf'
wookroot = pdfplumber.open(pdf)
pages = wookroot.pages
for page in pages:
    text = page.extract_text()
    tables = page.extract_tables()
    print(text)
    print(tables)
    break
wookroot.close()

这个包也有一下高级的用法，主要是对表格数据抽取进行参数调节，但是效果嘛，不是很理想。

（二）、tablua

tablua：专门用于抽取PDF文件中表格数据的包

优点：

①抽取出来表格数据可以反向推导出表格的结构（亮点）；

②不会换行数据干扰；

③可以指定页读取

缺点：

①无法保证表格数据100%准确；

②对于无边界表格支持不好，丢失数据；

import tablua


def get_tabula_tables(pdf_path):
    dfs = tabula.read_pdf(pdf_path, pages='all', encoding='gbk')
    tables = []
    for df in dfs:
        df = df.fillna('')
        headers = df.keys().values.tolist()
        lt = []
        for header in headers:
            if header.count('Unnamed'):
                lt.append('')
                continue
            if header[-1].isdigit() and header.count('.'):
                words = header.split('.')
                line = '.'.join(words[:-1])
                if headers.count(line):
                    lt.append(line)
                    continue
            lt.append(header)
        headers = lt
        values = df.values.tolist()
        lt = []
        for words in values:
            rows = []
            for word in words:
                if not isinstance(word, str):
                    word = str(word)
                    if word[-2:] == '.0':
                        word = word[:-2]
                        rows.append(word)
                        continue
                rows.append(word)
            lt.append(rows)
        values = lt
        values.insert(0, headers)
        tables.append(values)
    return tables


pdf_file = 'xxxx.pdf'
tables = get_tabula_tables(pdf_path)

读取表格中的整数，后面会带有“.0“。

（三）、Camelot

安装包以后，默认的模式无法使用，只能够使用stream来读取。

import camelot


tables = camelot.read_pdf(pdf_file, flavor="stream")
for table in tables:
    print(table.df)
    print('>>'*50)

流式读取会将整页当做一个表格。

总结-解析PDF文件

文本：最好的包就是pdfplumber，可以获取到完整的文本数据，但是表格文本、流程图文本、图表文本所也会被读取。这个缺点自然是难以拆分，基本没有通用的逻辑可以排除。这个也是优点，如果我们想将表格数据插入到文本中，那么是不是就可以通过这种方式来实现呢？总的来说，还是很复杂，对于同一段落的文本，还需要我们自己去合并，涉及到换页、表格数据干扰、流程图数据干扰以及包本身可能会读取出错，这个工作量是非常的大，想要实现真的是很难（这么过滤表格数据就足以搞崩心态）。

表格：对于有线表格，推荐的pdfplumber；边框线缺失的，基本都会丢失数据。如果你需要重构数据，可以用tablua。值得注意的事，不管那个包，都有可能存在表数据和pdf中表数据不一致的问题（或多、或少、或读错）。

四、PDF文件转docx

相信大家也看到了，想直接从pdf中解析出文本、表格数据是真的心累。那么我们能够换个思路，从它的前身入手，读取docx文档。docx文件与pdf文件不同之处在于，docx中的数据是标签化的，只要是标签化，我们提取数据基本上就不会出错。

我这里一共有两种方式pdf转docx：pdf2docx+aspose

（一）、pdf2docx

这个包是相信大家都是比较熟悉的，百度中90%都是这个用法。

from pdf2docx import Converter
import logging


logging.disable(logging.INFO)
logging.disable(logging.DEBUG)
logging.disable(logging.WARNING)


pdf_file = 'xxx.pdf'
cv = Converter(pdf_file)
docx_file = 'xxx.docx'
cv.convert(docx_file)
cv.close()

优点：1、转换速度快，0.2秒一页；2、无线+有线表格都支持；

缺点：1、纸张方向是横向的表格不支持；2、并不是所有表结构都可以转换（表格边框线的多样性会影响转化的效果）。

（二）aspose

官网：File Format APIs for .NET Core, Java, Python, C++, Android | products.aspose.com

今天主要用里面的aspose.words。aspose.pdf这个也可读取数据，但是效果还没有pdflumber好。

import aspose.words as aw

pdf_file = 'xxx.pdf'
docx_file = 'xxx.docx'
pdf = aw.Document(pdf_file)
pdf.save(docx_file)

优点：1.无线+有线表格都支持；2、支持横向表格；3、表格数据更加准确。

缺点：

有两个版本，免费版和付费版：免费版单个文件只能转5页。

有水印+页眉，转换的words中会有该公司的水印和页眉，这个应该能够解决（没试过）。

和pdf2docx一样，对于特殊结构的表格，转换会很糟糕。

某些情况下文本会出现错乱（我也不知为啥，但是用pdf2docx没有问题）。

没有哪个是绝对精准、通用的，但是至少有两种方案来互补。我测试过网上的在线pdf转docx，要么表格数据有缺失，要么就是用ocr来识别、重构的word，这个种word提取出来的表格数据无法使用。

五、docx文件数据抽取

直接上代码

from docx import Document


def get_doc_tables(doc):
    """
    获取docx文件中表格，转化成list
    :param doc:
    :return:
    """
    result = []
    tables = doc.tables
    for table in tables:
        ret = []
        for row_index in range(len(table.rows)):
            lt = []
            for col_index in range(len(table.row_cells(row_index))):
                text = table.cell(row_index, col_index).text
                lt.append(text)
            ret.append(lt)
        result.append(ret)
    return result


def get_doc_lines(paragraphs):
    lines = []
    for paragraph in paragraphs:
        line = paragraph.text.strip()
        if not line:
            continue
        lines.append(line)
    # aspose用的体验板，带有页眉
    lines = lines[1:]
    return lines

docx_file = 'xxx.docx'
doc = Document(docx_file)
tables = get_doc_tables(dox)
paragraphs = doc.paragraphs
lines = get_doc_lines(paragraphs)

优点：

同一段落的会整合到一块（也会有部分行不会）。

读取的表格数据可以反向推导出表格结构（上下左右合并相同值，我是将list数据转成了

包含的字符串）。

缺点：

a.每次读取的数据都是整个文件的数据，不支持单页。

b.无法定位表格数据在原文中的位置。

总结

直接解析PDF文件，获取表格数据还行，但是获取文本数据就很难，建议转成docx文件后再处理。

转docx文件，不是所有的pdf都支持，选取多种方式相互补充更为靠谱，没有那个库适合所有的pdf文件！

从docx中读取数据，数据都好提取，数据的准确度和转成docx文件的准确的有关，转的不好，数据就有问题。

表格数据定位问题，我是使用的pdfplumber来完成的，虽然很low，但是也没有找到其他办法。

流程：

pdf文件---切割--->单页pdf文件---转换--->docx文件---数据提取--->表格数据+文本数据---表格数据定位--->完整的整页数据--->前端展示

找到一个介绍PDF文件数据结构的文件：PDF Explained （译作《PDF 解析》） | PDF-Explained (zxyle.github.io)

以上就是所有的内容，希望对你有帮助~

你可能感兴趣的:(pdf,python)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
lesson20：Python函数的标注你的电影很有趣 python 开发语言
目录引言：为什么函数标注是现代Python开发的必备技能一、函数标注的基础语法1.1参数与返回值标注1.2支持的标注类型1.3Python3.9+的重大改进：标准集合泛型二、高级标注技巧与最佳实践2.1复杂参数结构标注2.2函数类型与回调标注2.3变量注解与类型别名三、静态类型检查工具应用3.1mypy：最流行的类型检查器3.2Pyright与IDE集成3.3运行时类型验证四、函数标注的工程价值与
Jupyter Notebook：数据科学的“瑞士军刀” a小胡哦机器学习基础人工智能机器学习
在数据科学的世界里，JupyterNotebook是一个不可或缺的工具，它就像是数据科学家手中的“瑞士军刀”，功能强大且灵活多变。今天，就让我们一起深入了解这个神奇的工具。一、JupyterNotebook是什么？JupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它支持多种编程语言，其中Python是最常用的语言之一。Jupy
Django学习笔记（一）
学习视频为：pythondjangoweb框架开发入门全套视频教程一、安装pipinstalldjango==****检查是否安装成功django.get_version()二、django新建项目操作1、新建一个项目django-adminstartprojectproject_name2、新建APPcdproject_namedjango-adminstartappApp注：一个project
GitLab 18.2 发布几十项与 DevSecOps 有关的功能，可升级体验【二】极小狐 gitlab 极狐gitlab devsecops devops ci/cd
沿袭我们的月度发布传统，极狐GitLab发布了18.2版本，该版本带来了议题和任务的自定义工作流状态、新的合并请求主页、新的群组概览合规仪表盘、下载安全报告的PDF导出文件、中心化的安全策略管理（Beta）等几十个重点功能的改进。下面是对部分重点功能的详细解读。关于极狐GitLab的安装升级，可以查看官方指导文档。18.2.0容器镜像registry.gitlab.cn/omnibus/gitla
Python 程序设计讲义（26）：字符串的用法——字符的编码睿思达DBA_WGX Python 讲义 python 开发语言
Python程序设计讲义（26）：字符串的用法——字符的编码目录Python程序设计讲义（26）：字符串的用法——字符的编码一、字符的编码二、`ASCII`编码三、`Unicode`编码四、使用`ord()`函数查询一个字符对应的`Unicode`编码五、使用`chr()`函数查询一个`Unicode`编码对应的字符六、`Python`字符串的特征一、字符的编码计算机默认只能处理二进制数，而不能处
【Python】pypinyin-汉字拼音转换工具鸟哥大大 Python python 自然语言处理
文章目录1.主要功能2.安装3.常用API3.1拼音风格3.2核心API3.2.1pypinyin.pinyin()3.2.2pypinyin.lazy_pinyin()3.2.3pypinyin.load_single_dict()3.2.4pypinyin.load_phrases_dict()3.2.5pypinyin.slug()3.3注册新的拼音风格4.基本用法4.1库导入4.2基本汉字
python编程第十四课：数据可视化小小源助手 Python代码实例信息可视化 python 开发语言
Python数据可视化：让数据“开口说话”在当今数据爆炸的时代，数据可视化已成为探索数据规律、传达数据信息的关键技术。Python凭借其丰富的第三方库，为数据可视化提供了强大而灵活的解决方案。本文将带你深入了解Matplotlib库的基础绘图、Seaborn库的高级可视化以及交互式可视化工具Plotly，帮助你通过图表清晰地展示数据背后的故事。一、Matplotlib库基础绘图Matplotlib
Python数据可视化：用代码绘制数据背后的故事 AAEllisonPang Python 信息可视化 python 开发语言
引言：当数据会说话在数据爆炸的时代，可视化是解锁数据价值的金钥匙。Python凭借其丰富的可视化生态库，已成为数据科学家的首选工具。本文将带您从基础到高级，探索如何用Python将冰冷数字转化为引人入胜的视觉叙事。一、基础篇：二维可视化的艺术表达1.1Matplotlib：可视化领域的瑞士军刀importmatplotlib.pyplotaspltimportnumpyasnpx=np.linsp
python学习笔记（汇总）朕的剑还未配妥 python学习笔记整理 python 学习开发语言
文章目录一.基础知识二.python中的数据类型三.运算符四.程序的控制结构五.列表六.字典七.元组八.集合九.字符串十.函数十一.解决bug一.基础知识print函数字符串要加引号，数字可不加引号，如print(123.4)print('小谢')print("洛天依")还可输入表达式，如print(1+3)如果使用三引号，print打印的内容可不在同一行print("line1line2line
word转pdf、pdf转word在线工具分享 bpmh 常用工具 word pdf
️一、在线转换网站（方便快捷，无需安装）MicrosoftOfficeOnline(官方推荐，最安全可靠)：网址：直接使用你的Microsoft账户登录https://www.office.com/方法：将你的.docx或.doc文件上传到OneDrive。在OfficeOnline中打开该Word文档。点击文件>另存为>下载PDF副本。优点：官方出品，完全免费，无需额外上传到第三方服务器，安全性
【免费下载】 Aspose for Java：解锁无水印、无限制的文档处理能力房征劲Kendall
AsposeforJava：解锁无水印、无限制的文档处理能力【下载地址】AsposeforJava-去除水印和数量限制AsposeforJava-去除水印和数量限制Aspose是一个著名的文档处理库，专为Java应用程序设计，支持多种文档格式的操作，如Word、Excel、PDF等项目地址:https://gitcode.com/open-source-toolkit/56c82项目介绍在现代企业
探索高效文档转换新路径：Aspose.Words v18.7助力Word无缝变PDF 邴卉露Robust
探索高效文档转换新路径：Aspose.Wordsv18.7助力Word无缝变PDF【下载地址】Aspose.Wordsv18.7C示例源码Word转PDF无需安装Office本仓库提供了一个使用Aspose.Wordsv18.7将Word文档转换为PDF文档的C#示例源码。Aspose.Words是一个强大的.NET控件，允许开发者在不安装MicrosoftOffice的情况下读写Word文档，并
PDF转Markdown - Python 实现方案与代码 Eiceblue Python Python PDF pdf python 开发语言 vscode
PDF作为广泛使用的文档格式，转换为轻量级标记语言Markdown后，可无缝集成到技术文档、博客平台和版本控制系统中，提高内容的可编辑性和可访问性。本文将详细介绍如何使用国产Spire.PDFforPython库将PDF文档转换为Markdown格式。技术优势：精准保留原始文档结构（段落/列表/表格）完整提取文本和图像内容无需Adobe依赖的纯Python实现支持Linux/Windows/mac
使用Python和Gradio构建实时数据可视化工具 PythonAI编程架构实战家信息可视化 python 开发语言 ai
使用Python和Gradio构建实时数据可视化工具关键词：Python、Gradio、数据可视化、实时数据、Web应用、交互式界面、数据科学摘要：本文将详细介绍如何使用Python和Gradio框架构建一个实时数据可视化工具。我们将从基础概念开始，逐步深入到核心算法实现，包括数据处理、可视化技术以及Gradio的交互式界面设计。通过实际项目案例，读者将学习如何创建一个功能完整、响应迅速的实时数据
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
pdf文件的属性值怎么修改？修改PDF内部的属性创建时间和修改时间这辈子谁会真的心疼你 pdf 修改PDF属性文件属性修改
部分PDF生成时会自动嵌入一些隐藏属性，比如创建软件版本、电脑用户名、修改记录等，这些信息可能涉及隐私或商业机密。例如，用个人电脑编辑的公司文件，属性中若包含个人用户名，可能泄露信息归属；通过修改或清除这些属性，可以避免不必要的信息暴露，降低隐私泄露风险。pdf文件的属性值怎么修改？要修改PDF文件的属性值（如标题、作者、主题等元数据），可以使用不同的工具或编程语言。以下是几种常见的方法：方法一：
数据可视化：数据世界的直观呈现卢政权1 信息可视化数据分析数据挖掘
在当今数字化浪潮中，数据呈爆炸式增长。数据可视化作为一种强大的技术手段，能够将复杂的数据转化为直观的图形、图表等形式，让数据背后的信息一目了然。无论是在商业决策、科学研究还是日常数据分析中，数据可视化都发挥着极为重要的作用。它帮助我们快速理解数据的分布、趋势、关联等特征，从而为进一步的分析和行动提供有力支持。接下来，我们将深入探讨数据可视化的奥秘，并通过代码示例展示其实际应用。一、Python数据
Python 程序设计讲义（25）：循环结构——嵌套循环
Python程序设计讲义（25）：循环结构——嵌套循环目录Python程序设计讲义（25）：循环结构——嵌套循环一、嵌套循环的执行流程二、嵌套循环对应的几种情况1、内循环和外循环互不影响2、外循环迭代影响内循环的条件3、外循环迭代影响内循环的循环体嵌套循环是指在一个循环体中嵌套另一个循环。while循环中可以嵌入另一个while循环或for循环。反之，也可以在for循环中嵌入另一个for循环或wh
基于Python引擎的PP-OCR模型库推理张欣-男 python ocr 开发语言 PaddleOCR PaddlePaddle
基于Python引擎的PP-OCR模型库推理1.文本检测模型推理#下载超轻量中文检测模型：wgethttps://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_det_infer.tartarxfch_PP-OCRv3_det_infer.tarpython3tools/infer/predict_det.py--image_dir=".
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他