生信学习者1

【工具】Eclipse：一个用于对两个或多个非靶向液相色谱-质谱代谢组学数据集进行比对的 Python 软件包

文章目录

- 介绍
- 代码
- 参考

介绍

非靶向液相色谱-串联质谱（LC-MS）代谢组学数据集蕴含着大量信息，但在分析和处理过程中却面临诸多挑战。通常，需要对两个或多个独立处理的数据集进行整合以形成完整的数据集，但现有的软件并不能完全满足我们的需求。为此，我们创建了一个名为“Eclipse”的开源 Python 包。Eclipse 采用一种新颖的基于图的方法来处理由 n 个（n > 2）数据集引发的复杂匹配情况。

Nontargeted LC-MS (liquid chromatography–tandem mass spectrometry) metabolomics datasets contain a wealth of information but present many challenges during analysis and processing. Often, two or more independently processed datasets must be aligned to form a complete dataset, but existing software does not fully meet our needs. For this, we have created an open-source Python package called Eclipse. Eclipse uses a novel graph-based approach to handle complex matching scenarios that arise from n > 2 datasets.

非靶向液相色谱-串联质谱法（LC-MS）是一种用于检测生物样本代谢状态的强大方法（克利什 2015 年）。在常规的数据处理流程中，特征提取软件会将原始仪器文件转换为表格数据集，通过识别并整合数千个特征来实现这一过程。每个特征都会附带其色谱保留时间（RT）和质荷比（m/z）（史密斯等人 2006 年，普拉斯卡尔等人 2010 年）。虽然许多特征都获得了化学标签（注释），但仍有很大一部分未被标注。未标注的空间包含了具有生物学意义的特征（陈等人 2022 年，塔希尔等人 2022 年，塔瓦内等人 2022 年），但在尝试将分别获取和处理的数据集进行拼接时（例如对齐）会遇到挑战（史密斯等人 2015 年）。当引入 n 个以上的数据集时，这些挑战会变得更加严重，导致复杂的匹配无法完全在表格数据中体现（补充图 S1）。虽然有一些基于特征描述符来对数据集进行对齐的解决方案存在（布伦纽斯等人，2016 年；科赫等人，2016 年；马克等人，2020 年；哈布拉等人，2021 年、2024 年；克利马科·皮托内等人，2022 年），但这些方案都不完全满足我们的所有要求，即它必须在默认设置下稳定运行，不能产生多个匹配结果，必须用 Python 编写，并且能够对 n 个以上的数据集进行对齐，同时结果不受数据集顺序的影响。

代码

图 1.Eclipse 算法概述。（a）Eclipse 算法的高级概览示例，包含三个数据集。（b）在 DS1→DS2 子对齐过程中生成的缩放因子，这是将要运行的六个步骤之一。数据集被简化（s1、s2），然后进行调查匹配。缩放因子从每个描述符的残差（RT、m/z、强度）中生成，然后减去这些值以揭示剩余的平方误差。（c）DS1→DS2 子对齐的匹配表生成。 DS1 被缩放（1→Sc1），然后对每个特征查询 DS2。落在所有描述符的 ±6 RSE 范围内的 DS2 被排序，并将最佳匹配记录在 DS1→DS2 匹配表中。（d）对对齐结果的聚合和报告。在所有子对齐运行完毕后，它们被收集到一个有向图中。图被压缩和聚类以生成结果表。

https://github.com/broadinstitute/bmxp
https://github.com/broadinstitute/bmxp/blob/main/tests/test_blueshift.py

import bmxp
from bxmp.eclipse import MSAligner
from bxmp.blueshift import DriftCorrection
from bmxp.gravity import cluster
bmxp.FMDATA['Compound_ID'] = 'Feature_ID'
bmxp.IMDATA['injection_id'] = 'Filename'

# pylint: disable=redefined-outer-name, missing-function-docstring, consider-using-with
"""
Tests for blueshift
"""
import pickle
from pathlib import Path
import pytest
import pandas as pd
import numpy as np
from bmxp import blueshift as b


@pytest.fixture()
def path_dc_input_1():
    return Path(__file__).parent / "DCinput1.csv"


@pytest.fixture()
def path_sample_info_1():
    return Path(__file__).parent / "DCinfo1.csv"


@pytest.fixture()
def path_dc_input_2():
    return Path(__file__).parent / "DCinput2.csv"


@pytest.fixture()
def path_sample_info_2():
    return Path(__file__).parent / "DCinfo2.csv"


@pytest.fixture()
def df_dc_input_1(path_dc_input_1):
    return pd.read_csv(path_dc_input_1)


@pytest.fixture()
def df_sample_info_1(path_sample_info_1):
    return pd.read_csv(path_sample_info_1)


@pytest.fixture()
def df_dc_input_2(path_dc_input_2):
    return pd.read_csv(path_dc_input_2)


@pytest.fixture()
def df_sample_info_2(path_sample_info_2):
    return pd.read_csv(path_sample_info_2)


@pytest.fixture()
def pickled_results():
    return pd.read_pickle(Path(__file__).parent / "blueshift.pickle")


def test_data_validation(df_dc_input_1, df_sample_info_1):
    # missing required column in injection information
    info = df_sample_info_1.drop("injection_order", axis=1)
    with pytest.raises(ValueError) as e:
        b.DriftCorrection(df_dc_input_1, info)
    assert "injection_order" in str(e.value)

    # missing injection in data input
    data = df_dc_input_1.drop("B0005_COL_ExampleProject_CN-M36058078", axis=1)
    with pytest.raises(ValueError) as e:
        b.DriftCorrection(data, df_sample_info_1)
    assert "data sheet: B0005_COL_ExampleProject_CN-M36058078" in str(e.value)

    # no error when missing "not_used" injection in data input
    data = df_dc_input_1.drop("B0008_COL_ExampleProject_CN-M59244903", axis=1)
    b.DriftCorrection(data, df_sample_info_1)

    # duplicate injection order
    info = df_sample_info_1.copy()
    info.loc[14, "injection_order"] = info.loc[15, "injection_order"]
    with pytest.raises(ValueError) as e:
        b.DriftCorrection(df_dc_input_1, info)
    assert "duplicate values" in str(e.value)

    # duplicate injection id
    info = df_sample_info_1.copy()
    info.loc[14, "injection_id"] = info.loc[15, "injection_id"]
    with pytest.raises(ValueError) as e:
        b.DriftCorrection(df_dc_input_1, info)
    assert "duplicate injection_ids" in str(e.value)

    # out-of-order injection order
    info = df_sample_info_1.copy()
    info.loc[14, "injection_order"] = 700
    with pytest.raises(ValueError) as e:
        b.DriftCorrection(df_dc_input_1, info)
    assert "must be sorted" in str(e.value)

    # invalid label in batches column
    info = df_sample_info_1.copy()
    info.loc[13, "batches"] = "batch nd"
    with pytest.raises(ValueError) as e:
        b.DriftCorrection(df_dc_input_1, info)
    assert "invalid label" in str(e.value)

    # non-numeric character in data
    data = df_dc_input_1.copy()
    data.iloc[5, 5] = "f"
    with pytest.raises(TypeError) as e:
        b.DriftCorrection(data, df_sample_info_1)
    assert "non-numeric" in str(e.value)

    # data and sample are not in same order
    data = df_dc_input_1.copy()
    col_list = list(data.columns)
    col_list = col_list[:10] + col_list[11:] + col_list[10:11]
    data = data.loc[:, col_list]
    with pytest.raises(ValueError) as e:
        b.DriftCorrection(data, df_sample_info_1)
    assert "usable samples" in str(e.value)


def test_batch_start_end(df_sample_info_1):
    # batch_end shifts up to nearest valid injection
    info = df_sample_info_1.copy()
    info.loc[16, ["batches", "QCRole"]] = ["batch_end", "NA"]
    info[["batches", "QCRole"]] = info[["batches", "QCRole"]].fillna("")
    batches = b.find_batch_start_end(info)
    assert batches.loc[15] == "batch_end" and batches.loc[16] == ""

    info = df_sample_info_1.copy()
    info.loc[7, "batches"] = "batch_end"
    info.loc[:7, "QCRole"] = "NA"
    info[["batches", "QCRole"]] = info[["batches", "QCRole"]].fillna("")
    with pytest.raises(ValueError) as e:
        b.find_batch_start_end(info)
    assert "Cannot move " in str(e.value)


def test_batch_generation(
    df_dc_input_1,
    df_sample_info_1,
    path_dc_input_2,
    path_sample_info_2,
    pickled_results,
):
    a = b.DriftCorrection(df_dc_input_1, df_sample_info_1)
    for batch, ref_batch in zip(a.batches["default"], pickled_results["default1"]):
        assert (batch.values == ref_batch.values).all()
    for batch, ref_batch in zip(a.batches["override"], pickled_results["override1"]):
        assert (batch.values == ref_batch.values).all()

    a = b.DriftCorrection(path_dc_input_2, path_sample_info_2)
    for batch, ref_batch in zip(a.batches["default"], pickled_results["default2"]):
        assert (batch.values == ref_batch.values).all()
    for batch, ref_batch in zip(a.batches["override"], pickled_results["override2"]):
        assert (batch.values == ref_batch.values).all()


def test_internal_standard_correction(
    path_dc_input_1,
    df_dc_input_1,
    path_sample_info_1,
    df_dc_input_2,
    df_sample_info_2,
    pickled_results,
):
    # one internal standard
    a = b.DriftCorrection(path_dc_input_1, path_sample_info_1)
    a.internal_standard_correct("Internal Standard 1")
    assert np.isclose(
        a.data.round().fillna(0),
        pickled_results["DCinput1_IS_InternalStandard1"].round().loc[:, a.data.columns],
        equal_nan=True,
    ).all()

    # one internal standard with nonquant duplicate
    nonquant_df = df_dc_input_1.copy()
    nonquant_df.loc[4, "Metabolite"] = "Internal Standard 1"
    nonquant_df.loc[4, "Non_Quant"] = True
    a = b.DriftCorrection(nonquant_df, path_sample_info_1)
    a.internal_standard_correct("Internal Standard 1")
    assert np.isclose(
        a.data.round().fillna(0),
        pickled_results["DCinput1_IS_InternalStandard1"].round().loc[:, a.data.columns],
        equal_nan=True,
    ).all()

    # nonquant "missing" internal standard
    nonquant_df = df_dc_input_1.copy()
    nonquant_df.loc[0, "Non_Quant"] = True
    a = b.DriftCorrection(nonquant_df, path_sample_info_1)
    with pytest.raises(ValueError) as e:
        a.internal_standard_correct("Internal Standard 1")
    assert "not found in" in str(e.value)

    # two internal standards
    a = b.DriftCorrection(df_dc_input_2, df_sample_info_2)
    a.internal_standard_correct(["15R-15-methyl-PGA2", "15R-15-methyl-PGF2a"])
    assert np.isclose(
        a.data.round(),
        pickled_results["DCinput2_IS_PGA2_PGF2a"].loc[:, a.data.columns],
        equal_nan=True,
    ).all()

    # missing IS value
    data = df_dc_input_2.copy()
    data.iloc[14, 50] = 0
    a = b.DriftCorrection(data, df_sample_info_2)
    with pytest.raises(ValueError) as e:
        a.internal_standard_correct("15S-15-methyl-PGD2")
    assert "missing values" in str(e.value)

    # wrong IS name
    with pytest.raises(ValueError) as e:
        a.internal_standard_correct("not_a_real_metabolite")
    assert "not found in" in str(e.value)


def test_pool_correction(
    path_dc_input_1,
    path_sample_info_1,
    path_dc_input_2,
    path_sample_info_2,
    pickled_results,
):
    # linear with override
    a = b.DriftCorrection(path_dc_input_1, path_sample_info_1)
    a.pool_correct(
        interpolation="linear", pool="PREFA", override=True, max_missing_percent=100
    )
    assert np.isclose(
        a.data.apply(np.floor),
        pickled_results["DCinput1_linear_PREFA_override"].loc[:, a.data.columns],
        equal_nan=True,
    ).all()

    # linear without override
    a = b.DriftCorrection(path_dc_input_1, path_sample_info_1)
    a.pool_correct(
        interpolation="linear", pool="PREFA", override=False, max_missing_percent=100
    )
    assert np.isclose(
        a.data.apply(np.floor),
        pickled_results["DCinput1_linear_PREFA"].loc[:, a.data.columns],
        equal_nan=True,
    ).all()

    # internal standard + NN
    a = b.DriftCorrection(path_dc_input_2, path_sample_info_2)
    a.internal_standard_correct("15R-15-methyl-PGA2")
    a.pool_correct(interpolation="NN", pool="PREFB", max_missing_percent=100)
    assert np.isclose(
        a.data.round(),
        pickled_results["DCinput2_IS_PGA2_NN_PREFB"].loc[:, a.data.columns],
        equal_nan=True,
    ).all()

    # linear with max_missing_percent=30
    a = b.DriftCorrection(path_dc_input_1, path_sample_info_1)
    a.pool_correct(
        interpolation="linear", pool="PREFA", override=True, max_missing_percent=30
    )
    assert np.isclose(
        a.data.apply(np.floor),
        pickled_results["DCinput1_linear_PREFA_override_maxmissing30"]
        .loc[:, a.data.columns]
        .apply(np.floor),
        equal_nan=True,
    ).all()


def test_cv_calculation(
    path_dc_input_2,
    path_sample_info_2,
    pickled_results,
):
    # CV calculation
    a = b.DriftCorrection(path_dc_input_2, path_sample_info_2)
    a.pool_correct(interpolation="linear", pool="PREFA", max_missing_percent=100)
    a.calculate_cvs()
    res = a.cvs.loc[:, ["CV" in col for col in a.cvs.columns]]
    assert np.isclose(
        res.fillna(0),
        pickled_results["DCinput2_linear_PREFA_CVs"].loc[:, res.columns].fillna(0),
    ).all()

参考

Eclipse: a Python package for alignment of two or more nontargeted LC-MS metabolomics datasets
https://github.com/broadinstitute/bmxp

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
Unity学习笔记1 zy_777
通过一个星期的简单学习，初步了解了下unity，unity的使用，以及场景的布局，UI，以及用C#做一些简单的逻辑。好记性不如烂笔头，一些关键帧还是记起来比较好，哈哈，不然可能转瞬即逝了，（PS:纯小白观点，unity大神可以直接忽略了）一：MonoBehaviour类的初始化1，Instantiate()创建GameObject2，通过Awake()和Start()来做初始化3，Update、L
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
lesson20：Python函数的标注你的电影很有趣 python 开发语言
目录引言：为什么函数标注是现代Python开发的必备技能一、函数标注的基础语法1.1参数与返回值标注1.2支持的标注类型1.3Python3.9+的重大改进：标准集合泛型二、高级标注技巧与最佳实践2.1复杂参数结构标注2.2函数类型与回调标注2.3变量注解与类型别名三、静态类型检查工具应用3.1mypy：最流行的类型检查器3.2Pyright与IDE集成3.3运行时类型验证四、函数标注的工程价值与
Jupyter Notebook：数据科学的“瑞士军刀” a小胡哦机器学习基础人工智能机器学习
在数据科学的世界里，JupyterNotebook是一个不可或缺的工具，它就像是数据科学家手中的“瑞士军刀”，功能强大且灵活多变。今天，就让我们一起深入了解这个神奇的工具。一、JupyterNotebook是什么？JupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它支持多种编程语言，其中Python是最常用的语言之一。Jupy
Django学习笔记（一）
学习视频为：pythondjangoweb框架开发入门全套视频教程一、安装pipinstalldjango==****检查是否安装成功django.get_version()二、django新建项目操作1、新建一个项目django-adminstartprojectproject_name2、新建APPcdproject_namedjango-adminstartappApp注：一个project
Python 程序设计讲义（26）：字符串的用法——字符的编码睿思达DBA_WGX Python 讲义 python 开发语言
Python程序设计讲义（26）：字符串的用法——字符的编码目录Python程序设计讲义（26）：字符串的用法——字符的编码一、字符的编码二、`ASCII`编码三、`Unicode`编码四、使用`ord()`函数查询一个字符对应的`Unicode`编码五、使用`chr()`函数查询一个`Unicode`编码对应的字符六、`Python`字符串的特征一、字符的编码计算机默认只能处理二进制数，而不能处
【Python】pypinyin-汉字拼音转换工具鸟哥大大 Python python 自然语言处理
文章目录1.主要功能2.安装3.常用API3.1拼音风格3.2核心API3.2.1pypinyin.pinyin()3.2.2pypinyin.lazy_pinyin()3.2.3pypinyin.load_single_dict()3.2.4pypinyin.load_phrases_dict()3.2.5pypinyin.slug()3.3注册新的拼音风格4.基本用法4.1库导入4.2基本汉字
python编程第十四课：数据可视化小小源助手 Python代码实例信息可视化 python 开发语言
Python数据可视化：让数据“开口说话”在当今数据爆炸的时代，数据可视化已成为探索数据规律、传达数据信息的关键技术。Python凭借其丰富的第三方库，为数据可视化提供了强大而灵活的解决方案。本文将带你深入了解Matplotlib库的基础绘图、Seaborn库的高级可视化以及交互式可视化工具Plotly，帮助你通过图表清晰地展示数据背后的故事。一、Matplotlib库基础绘图Matplotlib
Python数据可视化：用代码绘制数据背后的故事 AAEllisonPang Python 信息可视化 python 开发语言
引言：当数据会说话在数据爆炸的时代，可视化是解锁数据价值的金钥匙。Python凭借其丰富的可视化生态库，已成为数据科学家的首选工具。本文将带您从基础到高级，探索如何用Python将冰冷数字转化为引人入胜的视觉叙事。一、基础篇：二维可视化的艺术表达1.1Matplotlib：可视化领域的瑞士军刀importmatplotlib.pyplotaspltimportnumpyasnpx=np.linsp
python学习笔记（汇总）朕的剑还未配妥 python学习笔记整理 python 学习开发语言
文章目录一.基础知识二.python中的数据类型三.运算符四.程序的控制结构五.列表六.字典七.元组八.集合九.字符串十.函数十一.解决bug一.基础知识print函数字符串要加引号，数字可不加引号，如print(123.4)print('小谢')print("洛天依")还可输入表达式，如print(1+3)如果使用三引号，print打印的内容可不在同一行print("line1line2line
PDF转Markdown - Python 实现方案与代码 Eiceblue Python Python PDF pdf python 开发语言 vscode
PDF作为广泛使用的文档格式，转换为轻量级标记语言Markdown后，可无缝集成到技术文档、博客平台和版本控制系统中，提高内容的可编辑性和可访问性。本文将详细介绍如何使用国产Spire.PDFforPython库将PDF文档转换为Markdown格式。技术优势：精准保留原始文档结构（段落/列表/表格）完整提取文本和图像内容无需Adobe依赖的纯Python实现支持Linux/Windows/mac
使用Python和Gradio构建实时数据可视化工具 PythonAI编程架构实战家信息可视化 python 开发语言 ai
使用Python和Gradio构建实时数据可视化工具关键词：Python、Gradio、数据可视化、实时数据、Web应用、交互式界面、数据科学摘要：本文将详细介绍如何使用Python和Gradio框架构建一个实时数据可视化工具。我们将从基础概念开始，逐步深入到核心算法实现，包括数据处理、可视化技术以及Gradio的交互式界面设计。通过实际项目案例，读者将学习如何创建一个功能完整、响应迅速的实时数据
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
数据可视化：数据世界的直观呈现卢政权1 信息可视化数据分析数据挖掘
在当今数字化浪潮中，数据呈爆炸式增长。数据可视化作为一种强大的技术手段，能够将复杂的数据转化为直观的图形、图表等形式，让数据背后的信息一目了然。无论是在商业决策、科学研究还是日常数据分析中，数据可视化都发挥着极为重要的作用。它帮助我们快速理解数据的分布、趋势、关联等特征，从而为进一步的分析和行动提供有力支持。接下来，我们将深入探讨数据可视化的奥秘，并通过代码示例展示其实际应用。一、Python数据
Python 程序设计讲义（25）：循环结构——嵌套循环
Python程序设计讲义（25）：循环结构——嵌套循环目录Python程序设计讲义（25）：循环结构——嵌套循环一、嵌套循环的执行流程二、嵌套循环对应的几种情况1、内循环和外循环互不影响2、外循环迭代影响内循环的条件3、外循环迭代影响内循环的循环体嵌套循环是指在一个循环体中嵌套另一个循环。while循环中可以嵌入另一个while循环或for循环。反之，也可以在for循环中嵌入另一个for循环或wh
基于Python引擎的PP-OCR模型库推理张欣-男 python ocr 开发语言 PaddleOCR PaddlePaddle
基于Python引擎的PP-OCR模型库推理1.文本检测模型推理#下载超轻量中文检测模型：wgethttps://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_det_infer.tartarxfch_PP-OCRv3_det_infer.tarpython3tools/infer/predict_det.py--image_dir=".
一个开源AI牛马神器 | AiPy，平替Manus，装完直接上手写Python！ Agent加载失败人工智能 python 开源算法 AI编程
还记得三个月前那个在闲鱼被炒到万元邀请码的Manus吗？现在你点官网，直接提示「所在地区不可用」了它走了，但更香的国产开源项目出现了：AiPy（爱派）。主打一个极致简化的AIAgent理念：别搞什么插件市场、Agent路由，直接给AI一个Python解释器，让它用自然语言写代码干活。听起来狠活？实际体验更狠：•完全本地化，界面傻瓜式操作，支持自然语言生成&执行Python任务；•数据清洗、文档总结
零数学基础理解AI核心概念：梯度下降可视化实战九章云极AladdinEdu 人工智能 gpu算力深度学习 pytorch python 语言模型 opencv
点击“AladdinEdu，同学们用得起的【H卡】算力平台”，H卡级别算力，按量计费，灵活弹性，顶级配置，学生专属优惠。用Python动画演示损失函数优化过程，数学公式具象化读者收获：直观理解模型训练本质，破除"数学恐惧症"当盲人登山者摸索下山路径时，他本能地运用了梯度下降算法。本文将用动态可视化技术，让你像感受重力一样理解AI训练的核心原理——无需任何数学公式推导。一、梯度下降：AI世界的"万有
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc

【工具】Eclipse：一个用于对两个或多个非靶向液相色谱-质谱代谢组学数据集进行比对的 Python 软件包

文章目录

介绍

代码

参考

你可能感兴趣的:(学习笔记,python,数据分析,数据挖掘)