李星星BruceL

Pandas-为什么 Polars 比 Pandas 使用更少的内存

虽然 Polars 主要以比 Pandas 运行更快而闻名，但如果使用得当，它有时也可以显著减少内存使用。特别是，某些在 Pandas 中需要手动完成的技术可以在 Polars 中自动完成，从而让你在处理大型数据集时使用更少的内存——并且减少你的工作量！

当然，这需要你使用正确的 Polars API。而且它并不能解决所有问题，即使它确实让你的生活更轻松。

在本文中，我们将：

看看如何通过一些工作来优化 Pandas 的内存使用。
看看 Polars 如何在某些情况下自动应用这些技术。
指出至少一些你需要手动干预以减少内存使用的方式。

一个例子：从简单的 Pandas 到内存优化的 Pandas

为了帮助理解 Polars 如何比 Pandas 减少内存使用，我们将从一个具体的例子开始，并在 Pandas 中实现它。我们将查看波士顿地区交通管理局（MBTA）记录的公交路线时间，并尝试找出特别慢的公交路线。

我们将使用 2022 年的数据，可在此处获取，数据以 CSV 文件形式提供。每个月的数据是一个约 300MB 的 CSV 文件；我们将查看 5 月的数据。

首先，我们将使用一个简单的 Pandas 实现来实现一个特定的查询，然后使用一个更优化但仍然基于 Pandas 的实现。在下一节中，我们将切换到 Polars。

第一步：更高效的内存表示和文件格式

以下是数据的一个示例，省略了一些列：

service_date	route_id	direction_id	standard_type	scheduled	scheduled_headway	headway
2022-05-01	“01”	“Inbound”	“Schedule”	“1900-01-01 06:05:00.000”	NA	NA
2022-05-01	“01”	“Inbound”	“Schedule”	“1900-01-01 06:25:00.000”	NA	NA
2022-05-01	“01”	“Inbound”	“Headway”	“1900-01-01 06:25:00.000”	“1200”	“841”
2022-05-01	“01”	“Inbound”	“Schedule”	“1900-01-01 06:29:00.000”	NA	NA
2022-05-01	“01”	“Inbound”	“Schedule”	“1900-01-01 06:30:00.000”	NA	NA

Inbound 和 Outbound 表示前往或离开波士顿的方向，波士顿也被称为 “The Hub”。

首先要注意的是，许多列可以使用更高效的数据类型来表示，而不会丢失任何信息。

将 service_date、actual 和 scheduled_headway 从字符串转换为时间戳。
将 route_id、direction_id 和 standard_type 从字符串转换为分类类型。

我们可能希望多次处理文件，例如尝试不同的查询。在这种情况下，我们不希望在加载后进行数据类型转换，而是希望数据以记住我们想要使用的数据类型的方式存储在磁盘上。CSV 不符合要求，因为它基本上只是一堆字符串。

此外，加载 CSV 可能会很慢，涉及大量解析。Parquet 数据格式是一个更好的替代方案：它具有与 Pandas 相似的实际数据类型概念，并且加载速度更快。

作为第一步，我们将加载 CSV，选择更好的列类型，并将结果写入 Parquet 文件：

import sys
import pandas as pd

df = pd.read_csv(
    sys.argv[1],
    dtype={
        "route_id": "category",
        "direction_id": "category",
        "point_type": "category",
        "standard_type": "category",
    },
    parse_dates=["service_date", "scheduled", "actual"],
)

df.to_parquet(sys.argv[1].replace(".csv", ".parquet"))

额外的，Parquet 使用压缩：新文件大小为 20MB，而 CSV 为 300MB。请记住，这只是磁盘上的大小。数据在加载到内存之前必须解压缩，因此磁盘压缩对内存使用没有帮助。

第二步：使用简单的 Pandas 实现查找慢速公交路线

为了找到慢速公交路线，我们将专注于“headways”：特定公交路线的到达频率。如果我们查看上面的示例数据，我们可以看到入站公交 1 应该每 1200 秒到达一次，但在 5 月 1 日，它实际上到达得更快，相差 841 秒。并非所有行都有 headway 信息；我们只想要 standard_type 为 Headway 的行。

以下是我们的算法：

删除所有没有 headway 信息的行。
计算实际 headway 与预期 headway 的比率；如果大于 1，则意味着公交车晚点。
对于每对路线编号和方向（入站/出站），选择该月的 headway 比率中位数。
找到 headway 比率中位数最差的 5 对路线。

这可能不是找到慢速公交车的最佳方法，但我们只是将其用作示例，所以没关系。

以下是第一次尝试，一个简单的实现：

import pandas as pd

def find_worst_headways():
    # 加载数据：
    data = pd.read_parquet("MBTA-2022-05.parquet")
    # 过滤到仅包含 headway 信息的行：
    data = data[data["standard_type"] == "Headway"]
    # 计算实际 headway 与预期 headway 的比率：
    data["headway_ratio"] = (
        data["headway"] / data["scheduled_headway"]
    )
    # 按路线和方向（入站/出站）分组：
    by_route = data.groupby(["route_id", "direction_id"])
    # 找到每条路线的 headway 比率中位数：
    median_headway = by_route[["headway_ratio"]].median()
    # 返回最差的 5 条路线：
    return median_headway.nlargest(
        5, columns=["headway_ratio"]
    )

print(find_worst_headways())

以下是结果：

                       headway_ratio
route_id direction_id
108      Outbound           2.900000
88       Outbound           1.680000
83       Outbound           1.565000
134      Outbound           1.431111
         Inbound            1.346667

由于某种原因，一个路线 ID 是空白的。我还没有调查原因，因为这只是一个示例，但可能是输入数据格式不正确。只要我们后面的实现给出相同的结果，这对本文来说并不重要，我们只是在比较相同的东西。在 Polars 实现中，它显示为 134，其他结果相同。

通过使用 /usr/bin/time -v 运行程序，我们可以看到最大 RSS（驻留）内存使用和挂钟时间和 CPU 时间：

User time (seconds): 0.84
System time (seconds): 1.33
Percent of CPU this job got: 491%
Elapsed (wall clock) time (h:mm:ss or m:ss): 0:00.44
Maximum resident set size (kbytes): 909500

Pandas 不是并行的，但 Parquet 加载库（在本例中为 Arrow）可以利用多个 CPU。

第三步：调查内存使用情况

我们已经了解到，我们的简单 Pandas 实现使用了 909MB 的内存。这很多！接下来，我们将使用 Sciagraph 性能和内存分析器来测量内存使用的来源。

此报告声称分配了 1.2GB 的内存；之前我们看到最大驻留内存为 900MB。差异是由于测量不同的东西。

以下是大部分内存分配的地方：

100MB 来自过滤到仅包含 headway 信息的行。
75MB 来自计算中位数。
1000MB 来自 Arrow 库，用于加载数据。这不是 Python 代码，Sciagraph 尚未显示本机调用堆栈的内存分配，因此尚不清楚加载数据的哪一部分负责。

显然，我们希望专注于最后一项，但我们在那里的详细信息较少。我们可以切换到 Memray 内存分析器，它确实提供了本机（C）调用堆栈。然而，稍微思考一下就会发现问题的一部分，以及明显的下一步。我们当前的处理涉及加载大量数据，然后丢弃大部分数据。

特别是，我们：

加载所有数据；这是 Arrow 参与并分配大量内存的地方。
删除许多行，特别是那些没有 headway 数据的行。
忽略许多我们在此查询中未使用的数据列。

分块或批处理是减少内存使用的基本技术之一。如果我们分块加载数据，而不是一次性加载所有数据，我们可以逐块过滤数据。然后我们可以合并更小的块，并在更少的数据上运行我们的逻辑。

第四步：更优化的 Pandas 实现

以下是我们基于新见解的实现：

import pandas as pd
import pyarrow.parquet as pq

def find_worst_headways():
    # 分块加载数据：
    chunks = []
    parquet_file = pq.ParquetFile(
        "MBTA-2022-05.parquet"
    )
    for batch in parquet_file.iter_batches():
        chunk = batch.to_pandas()
        del batch
        # 计算 headway 比率：
        chunk["headway_ratio"] = (
            chunk["headway"] / chunk["scheduled_headway"]
        )
        # 存储我们关心的列：
        chunks.append(chunk[
            ["route_id", "direction_id", "headway_ratio"]
        ])
    del parquet_file

    # 合并为一个大的 DataFrame。
    # 不理想，涉及两个内存副本...
    data = pd.concat(chunks)
    del chunks

    # 按路线和方向（入站/出站）分组：
    by_route = data.groupby(["route_id", "direction_id"])
    # 找到每条路线的 headway 比率中位数：
    median_headway = by_route[["headway_ratio"]].median()
    # 返回最差的 5 条路线：
    return median_headway.nlargest(
        5, columns=["headway_ratio"]
    )

print(find_worst_headways())

输出相同，但使用的内存更少：

User time (seconds): 1.10
System time (seconds): 1.26
Percent of CPU this job got: 348%
Elapsed (wall clock) time (h:mm:ss or m:ss): 0:00.68
Maximum resident set size (kbytes): 364172

我们已经从 900MB 的最大驻留内存减少到 360MB，这是一个非常好的改进。

第五步：尝试用 fastparquet 替换 PyArrow

在我们最初的内存分析中，我们看到 PyArrow 负责大部分分配的内存，作为加载 Parquet 文件的一部分。Pandas 还可以使用另一个名为 fastparquet 的库加载 Parquet 文件，因此我们可以将我们的简单版本和优化版本都切换到使用它，看看它如何影响内存使用。

以下是我们在简单版本中所做的更改：

# ...
data = pd.read_parquet("MBTA-2022-05.parquet",
                       engine="fastparquet")
# ...

优化版本：

import pandas as pd
import fastparquet as pq

def find_worst_headways():
    # 分块加载数据：
    chunks = []
    parquet_file = pq.ParquetFile("MBTA-2022-05.parquet")
    for chunk in parquet_file.iter_row_groups():
        # 计算 headway 比率：
        chunk["headway_ratio"] = (
            chunk["headway"] / chunk["scheduled_headway"]
        )
        # ...

在测量结果代码的内存使用情况时，事实证明 Fastparquet 在简单版本中使用的内存比 PyArrow 少得多。但优化版本实际上更糟！我可以花时间尝试找出原因，但这可能太偏离主题了。猜测一下，它正在加载整个文件，如果我们希望从分块中获得任何好处，我们需要在创建 Parquet 文件时调整行组的大小。

以下是我们各种实现的总结：

实现	最大驻留内存	挂钟时间	CPU 时间
Pandas 简单（PyArrow）	909MB	0.44 秒	2.17 秒
Pandas 优化（PyArrow）	364MB	0.68 秒	2.36 秒
Pandas 简单（Fastparquet）	400MB	0.71 秒	2.07 秒
Pandas “优化”（Fastparquet）	460MB	0.71 秒	2.04 秒

惰性处理，懒惰的程序员：使用 Polars 减少内存使用

到目前为止，我们已经了解到，手动实现的批处理实现至少在使用 PyArrow 时可以减少 Pandas 中的内存使用。令人恼火的是，这需要我们手动重构数据的表示和加载方式。理想情况下，我们的库会为我们做到这一点，但不幸的是，在使用 Pandas 时这是不可能的。

Pandas 是一个 急切的 API：你告诉它做某事，它会立即执行。 因此，如果你告诉它加载一个文件，它会立即将所有内容加载到内存中；它无法知道你打算在下一行代码中丢弃一半的数据。

另一种选择是 惰性 API，它允许你将一系列操作——加载、过滤、聚合、转换——串在一起，而无需实际执行任何工作。 在创建了这一系列操作之后，你可以单独告诉库执行整个操作。

一个聪明的惰性库可以查看所有操作，并制定一个优化的执行计划，考虑到你计划做的所有事情——以及你计划不做的事情。例如：

如果你根本不接触某一列，则无需将其加载到内存中。
如果可以进行批处理，库可以自动为你进行批处理。Polars 允许你明确要求这种优化；请参阅下面的流式处理。

Polars 是一个具有许多优点的 Pandas 替代品，例如多核处理——并且它支持急切和惰性 API。使用惰性 API 可以意味着减少内存使用，而无需额外的工作来手动批处理数据处理。

我们的 Polars 实现

Polars 的急切加载 API 通常以 read_* 开头，而惰性加载 API 以 scan_* 开头。以下是我们的代码在使用 Polars 惰性 API（特别是 scan_parquet()）重新实现时的样子：

import polars as pl

def headways_sorted_worst_first():
    # 惰性加载数据：
    data = pl.scan_parquet("MBTA-2022-05.parquet")
    # 过滤到仅包含 headway 信息的行，然后选择我们需要的数据：
    data = data.filter(
        pl.col("standard_type") == "Headway"
    ).select(
        [
            pl.col("route_id"),
            pl.col("direction_id"),
            pl.col("headway") / pl.col("scheduled_headway"),
        ]
    )
    # 按路线和方向（入站/出站）分组：
    by_route = data.groupby(["route_id", "direction_id"])
    # 找到每条路线的 headway 比率中位数：
    median_headway = by_route.agg(
        pl.col("headway").median()
    )
    # 没有 nlargest() 方法，因此只需按降序排序：
    return median_headway.sort("headway", reverse=True)

# 创建查询：
query = headways_sorted_worst_first()
# 实际运行查询：
result = query.collect()
# 打印最差的 5 个 headway：
print(result[:5, :])

当我们使用 Pandas 时，每次调用都会执行一些操作。使用 Polars 的惰性 API，在调用 collect() 之前实际上不会发生任何事情。此时，它可以使用查询计划器来制定优化的执行策略。只有在那时，Polars 才会执行加载、过滤和聚合数据的工作。

未来的 Polars 版本可能会改进查询计划器（或者，可能会变得更糟）。使用 Pandas 的急切 API，结构优化需要你重构代码；无论好坏，执行策略都取决于你。

内存使用和性能比较

让我们看看 Polars 的惰性实现与我们之前的实现相比如何：

实现	最大驻留内存	挂钟时间	CPU 时间
Pandas 简单（PyArrow）	909MB	0.44 秒	2.17 秒
Pandas 优化（PyArrow）	364MB	0.68 秒	2.36 秒
Pandas 简单（Fastparquet）	400MB	0.71 秒	2.07 秒
Pandas “优化”（Fastparquet）	460MB	0.71 秒	2.04 秒
Polars（惰性）	152MB	0.11 秒	0.44 秒

Polars 使用更少的内存，完成速度更快，并且使用的 CPU 资源也更少。这太棒了！更妙的是，我们不需要重新结构化代码来手动实现批处理；要么 Polars 为我们完成了这一步，要么它应用了其他一些减少内存使用的技术。真正的原因在于它的惰性 API：仅仅使用 Polars 的急切 read_parquet() API 加载文件，最大驻留内存就只有 310MB。

请注意，Polars 包含一个流模式（截至 2023 年 1 月仍处于实验阶段），它特别尝试使用批处理 API 来降低内存使用。只需调用 collect(streaming=True) 而不是 collect()。在这种情况下，它并没有显著减少内存使用，但如果你处理的是大文件，可以尝试一下。

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
lesson20：Python函数的标注你的电影很有趣 python 开发语言
目录引言：为什么函数标注是现代Python开发的必备技能一、函数标注的基础语法1.1参数与返回值标注1.2支持的标注类型1.3Python3.9+的重大改进：标准集合泛型二、高级标注技巧与最佳实践2.1复杂参数结构标注2.2函数类型与回调标注2.3变量注解与类型别名三、静态类型检查工具应用3.1mypy：最流行的类型检查器3.2Pyright与IDE集成3.3运行时类型验证四、函数标注的工程价值与
Jupyter Notebook：数据科学的“瑞士军刀” a小胡哦机器学习基础人工智能机器学习
在数据科学的世界里，JupyterNotebook是一个不可或缺的工具，它就像是数据科学家手中的“瑞士军刀”，功能强大且灵活多变。今天，就让我们一起深入了解这个神奇的工具。一、JupyterNotebook是什么？JupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它支持多种编程语言，其中Python是最常用的语言之一。Jupy
Django学习笔记（一）
学习视频为：pythondjangoweb框架开发入门全套视频教程一、安装pipinstalldjango==****检查是否安装成功django.get_version()二、django新建项目操作1、新建一个项目django-adminstartprojectproject_name2、新建APPcdproject_namedjango-adminstartappApp注：一个project
Python 程序设计讲义（26）：字符串的用法——字符的编码睿思达DBA_WGX Python 讲义 python 开发语言
Python程序设计讲义（26）：字符串的用法——字符的编码目录Python程序设计讲义（26）：字符串的用法——字符的编码一、字符的编码二、`ASCII`编码三、`Unicode`编码四、使用`ord()`函数查询一个字符对应的`Unicode`编码五、使用`chr()`函数查询一个`Unicode`编码对应的字符六、`Python`字符串的特征一、字符的编码计算机默认只能处理二进制数，而不能处
【Python】pypinyin-汉字拼音转换工具鸟哥大大 Python python 自然语言处理
文章目录1.主要功能2.安装3.常用API3.1拼音风格3.2核心API3.2.1pypinyin.pinyin()3.2.2pypinyin.lazy_pinyin()3.2.3pypinyin.load_single_dict()3.2.4pypinyin.load_phrases_dict()3.2.5pypinyin.slug()3.3注册新的拼音风格4.基本用法4.1库导入4.2基本汉字
python编程第十四课：数据可视化小小源助手 Python代码实例信息可视化 python 开发语言
Python数据可视化：让数据“开口说话”在当今数据爆炸的时代，数据可视化已成为探索数据规律、传达数据信息的关键技术。Python凭借其丰富的第三方库，为数据可视化提供了强大而灵活的解决方案。本文将带你深入了解Matplotlib库的基础绘图、Seaborn库的高级可视化以及交互式可视化工具Plotly，帮助你通过图表清晰地展示数据背后的故事。一、Matplotlib库基础绘图Matplotlib
Python数据可视化：用代码绘制数据背后的故事 AAEllisonPang Python 信息可视化 python 开发语言
引言：当数据会说话在数据爆炸的时代，可视化是解锁数据价值的金钥匙。Python凭借其丰富的可视化生态库，已成为数据科学家的首选工具。本文将带您从基础到高级，探索如何用Python将冰冷数字转化为引人入胜的视觉叙事。一、基础篇：二维可视化的艺术表达1.1Matplotlib：可视化领域的瑞士军刀importmatplotlib.pyplotaspltimportnumpyasnpx=np.linsp
python学习笔记（汇总）朕的剑还未配妥 python学习笔记整理 python 学习开发语言
文章目录一.基础知识二.python中的数据类型三.运算符四.程序的控制结构五.列表六.字典七.元组八.集合九.字符串十.函数十一.解决bug一.基础知识print函数字符串要加引号，数字可不加引号，如print(123.4)print('小谢')print("洛天依")还可输入表达式，如print(1+3)如果使用三引号，print打印的内容可不在同一行print("line1line2line
PDF转Markdown - Python 实现方案与代码 Eiceblue Python Python PDF pdf python 开发语言 vscode
PDF作为广泛使用的文档格式，转换为轻量级标记语言Markdown后，可无缝集成到技术文档、博客平台和版本控制系统中，提高内容的可编辑性和可访问性。本文将详细介绍如何使用国产Spire.PDFforPython库将PDF文档转换为Markdown格式。技术优势：精准保留原始文档结构（段落/列表/表格）完整提取文本和图像内容无需Adobe依赖的纯Python实现支持Linux/Windows/mac
使用Python和Gradio构建实时数据可视化工具 PythonAI编程架构实战家信息可视化 python 开发语言 ai
使用Python和Gradio构建实时数据可视化工具关键词：Python、Gradio、数据可视化、实时数据、Web应用、交互式界面、数据科学摘要：本文将详细介绍如何使用Python和Gradio框架构建一个实时数据可视化工具。我们将从基础概念开始，逐步深入到核心算法实现，包括数据处理、可视化技术以及Gradio的交互式界面设计。通过实际项目案例，读者将学习如何创建一个功能完整、响应迅速的实时数据
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
数据可视化：数据世界的直观呈现卢政权1 信息可视化数据分析数据挖掘
在当今数字化浪潮中，数据呈爆炸式增长。数据可视化作为一种强大的技术手段，能够将复杂的数据转化为直观的图形、图表等形式，让数据背后的信息一目了然。无论是在商业决策、科学研究还是日常数据分析中，数据可视化都发挥着极为重要的作用。它帮助我们快速理解数据的分布、趋势、关联等特征，从而为进一步的分析和行动提供有力支持。接下来，我们将深入探讨数据可视化的奥秘，并通过代码示例展示其实际应用。一、Python数据
Python 程序设计讲义（25）：循环结构——嵌套循环
Python程序设计讲义（25）：循环结构——嵌套循环目录Python程序设计讲义（25）：循环结构——嵌套循环一、嵌套循环的执行流程二、嵌套循环对应的几种情况1、内循环和外循环互不影响2、外循环迭代影响内循环的条件3、外循环迭代影响内循环的循环体嵌套循环是指在一个循环体中嵌套另一个循环。while循环中可以嵌入另一个while循环或for循环。反之，也可以在for循环中嵌入另一个for循环或wh
基于Python引擎的PP-OCR模型库推理张欣-男 python ocr 开发语言 PaddleOCR PaddlePaddle
基于Python引擎的PP-OCR模型库推理1.文本检测模型推理#下载超轻量中文检测模型：wgethttps://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_det_infer.tartarxfch_PP-OCRv3_det_infer.tarpython3tools/infer/predict_det.py--image_dir=".
一个开源AI牛马神器 | AiPy，平替Manus，装完直接上手写Python！ Agent加载失败人工智能 python 开源算法 AI编程
还记得三个月前那个在闲鱼被炒到万元邀请码的Manus吗？现在你点官网，直接提示「所在地区不可用」了它走了，但更香的国产开源项目出现了：AiPy（爱派）。主打一个极致简化的AIAgent理念：别搞什么插件市场、Agent路由，直接给AI一个Python解释器，让它用自然语言写代码干活。听起来狠活？实际体验更狠：•完全本地化，界面傻瓜式操作，支持自然语言生成&执行Python任务；•数据清洗、文档总结
零数学基础理解AI核心概念：梯度下降可视化实战九章云极AladdinEdu 人工智能 gpu算力深度学习 pytorch python 语言模型 opencv
点击“AladdinEdu，同学们用得起的【H卡】算力平台”，H卡级别算力，按量计费，灵活弹性，顶级配置，学生专属优惠。用Python动画演示损失函数优化过程，数学公式具象化读者收获：直观理解模型训练本质，破除"数学恐惧症"当盲人登山者摸索下山路径时，他本能地运用了梯度下降算法。本文将用动态可视化技术，让你像感受重力一样理解AI训练的核心原理——无需任何数学公式推导。一、梯度下降：AI世界的"万有
2025.07 Java入门笔记01 殷浩焕笔记
一、熟悉IDEA和Java语法（一）LiuCourseJavaOOP1.一直在用C++开发，python也用了些，Java是真的不熟，用什么IDE还是问的同事；2.一开始安装了jdk-23，拿VSCode当编辑器，在cmd窗口编译运行，也能玩；但是想正儿八经搞项目开发，还是需要IDE；3.安装了IDEA社区版：（1）IDE通常自带对应编程语言的安装包，例如IDEA自带jbr-21（和jdk是不同的
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
Python STL概念学习与代码实践体制教科书
本文还有配套的精品资源，点击获取简介：通过”py_stl_learning”项目，学习者可以使用Python实现和理解C++STL的概念，包括数据结构、算法、容器适配器、模板和泛型容器等。Python中的列表、集合、字典等数据结构与STL中的vector、set、map等类似，而Python的itertools和functools模块提供了STL风格的算法功能。Python通过其面向对象的特性以及
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL