lvy-

[Data Pipeline] MinIO存储（数据湖) | 数据层 Bronze/Silver/Gold

第三章：MinIO存储（数据湖）

欢迎回来，数据探险家们！

在第一章：MySQL数据库（源系统）中，我们看到了原始咖啡销售数据的起点。
在第二章：Spark作业（数据处理）中，我们学习了Spark作业如何作为强大的工作者来清洗、转换和准备这些数据。

现在，处理后的数据去往何处？Spark作业在后续步骤中从哪里获取数据？我们需要一个中心位置，一个为海量多样化数据设计的大型存储区域。这就引出了我们的第三个关键概念：MinIO存储（数据湖）。

什么是数据湖？

想象您有大量不同类型的信息：来自MySQL的销售记录、网站点击数据、客户反馈笔记、库存电子表格等。

传统上，您可能会尝试将所有内容放入严格的数据库中，但如果数据没有完美结构化，这可能很困难。

数据湖就像一个巨大、灵活的存储库，可以大规模存储结构化或非结构化数据。
它是一个集中存储库，以原始或接近原始的格式收集来自各种来源的数据。在存入数据时，不必预先决定如何使用这些数据；可以稍后确定。这使其非常灵活。

在我们的流水线中，数据湖是数据离开源系统后但完全准备好进行最终分析或报告前的存储位置。这是中间（也是主要）的存储位置。

什么是MinIO？

MinIO是本项目中用作数据湖的具体工具。

将MinIO视为自己的本地版Amazon S3等云存储服务。
它提供与S3兼容的接口，这是通过互联网存储和检索大文件的流行方式。

为什么使用MinIO而不是实际云存储？

本地运行：它直接运行在项目的Docker环境中，无需云账户或互联网即可运行核心流水线
S3兼容性：因其"对话方式"与S3相同，专为S3设计的工具（如Apache Spark）无需特殊配置即可轻松连接MinIO
简单易用：便于开发和学习的设置和管理

因此，MinIO是我们本地化、兼容S3的存储系统，充当数据的中心枢纽。

MinIO中的数据组织：存储桶与路径

在MinIO（及S3）等存储系统中，数据通过两个主要概念组织：

存储桶：类似顶级文件夹或容器，需赋予唯一名称（如bronze-layer或silver-layer）
对象/文件：实际数据文件（如包含订单的Parquet文件），对象存储在存储桶内部

将对象存入存储桶时，需指定键或路径，即其在存储桶内的名称和位置。该路径通常类似计算机文件路径（如brz.orders/year=2023/month=10/day=26/part-00000.parquet）。

在本项目中，我们用存储桶表示不同数据层（第四章：数据层（青铜、白银、黄金）），并通过路径组织表及分区（如按年/月/日）。

为什么选择MinIO？

中心存储：所有处理数据的统一存储位置，供后续步骤读取
可扩展性（概念）：虽然本地MinIO规模小，但S3概念可扩展至PB级存储，这种设计模式能很好转化为真实云数据湖
基于文件：数据湖通常以文件（如Parquet）形式存储数据，这与MySQL等事务型数据库的行式存储不同，文件存储更适合Spark等工具的大规模分析读取
支持数据分层：可轻松为青铜、白银和黄金层创建独立存储桶或文件夹，保持数据处理层级的组织性

Spark作业与MinIO的交互

在第二章中我们简要看到，Spark作业需要知道如何连接MinIO。这种连接通过SparkSession配置建立。

重看create_SparkSession函数片段：

# 来源: scripts/batch/bronze_dimension_fact_load.py

def create_SparkSession() -> SparkSession:
    return SparkSession.builder \
        .appName("从MySQL到MinIO的数据导入") \
        .config("spark.hadoop.fs.s3a.endpoint", "http://minio:9000") \
        .config("spark.hadoop.fs.s3a.access.key", "minioadmin") \
        .config("spark.hadoop.fs.s3a.secret.key", "minioadmin") \
        .config("spark.hadoop.fs.s3a.path.style.access", "true") \
        .config("spark.hadoop.fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem") \
        # ... 其他配置 ...
        .getOrCreate()

以spark.hadoop.fs.s3a.开头的行是关键：

spark.hadoop.fs.s3a.endpoint：指定MinIO服务器网络地址（minio对应docker-compose.yaml中的服务名）和端口（9000）
spark.hadoop.fs.s3a.access.key和spark.hadoop.fs.s3a.secret.key：提供Spark连接MinIO所需的用户名和密码（与docker-compose.yaml中的MINIO_ROOT_USER和MINIO_ROOT_PASSWORD匹配）
spark.hadoop.fs.s3a.path.style.access：非真实Amazon S3服务时需要的技术设置，确保Spark正确构建请求路径
spark.hadoop.fs.s3a.impl：指定Spark用于S3通信的库（文件系统实现），S3AFileSystem专用于S3兼容存储

配置完成后，Spark能将s3a://bronze-layer/brz.orders等路径转换为向MinIO服务器的请求。

后台工作原理

当Spark作业使用s3a://路径读写数据时，简化流程如下：

Spark脚本定义高级任务（读/写），SparkSession协调实际操作。S3A连接器将Spark文件操作转换为MinIO理解的S3协议。

MinIO接收请求，使用配置和凭证在物理存储（通过Docker卷映射到计算机文件夹）中查找或保存数据文件。

Docker Compose中的MinIO配置

通过docker-compose-batch.yaml文件查看MinIO的项目配置：

# 来源: docker-compose-batch.yaml

services:
  # ... 其他服务 ...

  minio:
    image: minio/minio:latest # 使用官方MinIO Docker镜像
    container_name: minio # 容器命名为'minio'
    ports:
      - "9000:9000" # 暴露S3 API端口（供Spark/工具连接）
      - "9001:9001" # 暴露MinIO控制台端口（用于浏览数据）
    environment: # 设置MinIO凭证
      MINIO_ROOT_USER: minioadmin
      MINIO_ROOT_PASSWORD: minioadmin
    volumes:
      - ./volumes/minio:/data # 将本地文件夹映射到MinIO数据存储位置
    command: server /data --console-address ":9001" # 启动MinIO服务器的命令
    restart: always # 始终重启
    networks:
      - myNetwork # 连接到共享网络

该配置定义minio服务：

拉取官方镜像、设置网络和端口、定义根用户密码（Spark使用）
最重要的是通过volume映射（./volumes/minio:/data）将MinIO内部/data目录的数据存储到本地./volumes/minio文件夹，即数据湖文件的实际存储位置。

Spark读写示例

从MinIO读取：

# 来源: scripts/batch/silver_dimensions.py

def read_bronze_layer(spark, table):
    # 示例路径：s3a://bronze-layer/brz.stores
    bronze_path = f"s3a://bronze-layer/{table}"
    print(f"从 {bronze_path} 读取数据") # 添加打印说明
    return spark.read.parquet(bronze_path)

# 使用示例：
# spark = create_SparkSession() # 假设已创建Spark会话
# stores_df = read_bronze_layer(spark, table="brz.stores")
# stores_df.show() # 显示前几行（示例输出如下）

写入MinIO：

# 来源: scripts/batch/bronze_dimension_fact_load.py（简化）

# enriched_orders 是待保存的Spark DataFrame
orders_path = "s3a://bronze-layer/brz.orders"
print(f"写入数据到 {orders_path}") # 添加打印说明

enriched_orders.write \
    .partitionBy("year", "month", "day") \
    .mode("append") \
    .parquet(orders_path)

# 执行过程：
# Spark获取'enriched_orders' DataFrame数据
# 按'year'、'month'和'day'列分组
# 将数据写入指定路径's3a://bronze-layer/brz.orders'
# 通过partitionBy创建子文件夹如：
# bronze-layer/brz.orders/year=2023/month=10/day=26/part-....parquet
# mode("append")表示若分区已存在数据，则追加新行
# 数据以Parquet格式保存

总结

MinIO是本项目的本地数据湖，提供关键、可扩展且灵活的存储。

它作为中心仓库，存储从源系统提取后的数据，以及数据处理不同阶段的中间结果（第四章：数据层（青铜、白银、黄金））。
Spark作业通过S3兼容接口（s3a://）连接MinIO，读取原始/处理数据并写入转换结果，通常采用Parquet等高效文件格式，通过存储桶和路径进行组织。

理解MinIO作为中心存储的角色至关重要，因为这是流水线所有中间和最终数据集的存储位置。

下一章：数据层（青铜、白银、黄金）

第四章：数据层（青铜、白银、黄金）

欢迎回到咖啡销售数据流水线构建之旅！

在前几章中，我们建立了数据起点（第一章：MySQL数据库（源系统）、了解了数据处理引擎（第二章：Spark作业（数据处理）），并搭建了中心存储区（第三章：MinIO存储（数据湖））。

现在有了存储海量数据的场所（MinIO数据湖），我们需要分阶段组织和处理数据。
简单堆砌所有数据会迅速导致混乱！
回想工厂的比喻：原材料进入后不会立即成为成品，而是经历初筛清洗、部件加工、最终组装等阶段。
我们的数据流水线也通过数据层实现类似的分级提炼，这是数据工程中常见且有效的模式$CITE_6 $CITE_2。

在coffee-sales-data-pipeline项目中，我们使用三个核心数据层：青铜层、白银层和黄金层，代表数据提炼的不同阶段。

1. 青铜层（原材料堆）

类比：工厂接收的原材料堆
目的：以原始格式存储从源系统提取的数据，也称为"原始区"
特性：
- 不可变性：数据一旦存入通常不再修改，源系统变更时添加新版本，保留历史记录
- 历史存档：完整记录源系统不同时间点的数据状态
- 最小化转换：仅基础格式转换（如数据库行转Parquet文件），无清洗/过滤/关联操作
- 全量保留：包含所有字段（含冗余/无效字段）
使用者：数据工程师（用于下游处理调试或重处理）
项目实现：存储在MinIO的bronze-layer存储桶，文件如brz.orders、brz.stores等

数据入青铜层流程

Spark作业（scripts/batch/bronze_dimension_fact_load.py）从MySQL直接读取数据并写入MinIO青铜层：

# 来源: scripts/batch/bronze_dimension_fact_load.py

def read_mysql_table(spark: SparkSession, table: str):
    # ... MySQL连接配置 ...
    return spark.read \
        .format("jdbc") \
        .option("dbtable", table) \
        .load()  # <<< 从MySQL读取DataFrame

def incremental_load_orders(spark: SparkSession) -> None:
    orders_df = read_mysql_table(spark, "orders")  # 读取订单表

    orders_path = "s3a://bronze-layer/brz.orders"  # MinIO目标路径

    # ... 增量加载检查逻辑 ...

    enriched_orders = orders_df.withColumn("year", year("timestamp")) \
                                .withColumn("month", month("timestamp")) \
                                .withColumn("day", dayofmonth("timestamp"))  # 添加日期分区列

    logger.info("[BRONZE][orders] 正在写入青铜层...")
    enriched_orders.write.partitionBy("year", "month", "day").mode("append").parquet(orders_path)  # <<< 写入青铜层

关键步骤：

通过read_mysql_table读取MySQL原始数据
定义s3a://bronze-layer/brz.orders存储路径（使用S3A协议连接MinIO）
添加年月日分区列（基础转换）
使用.write.parquet()写入MinIO，partitionBy实现日期分区，append模式追加新数据

2. 白银层（清洁标准件）

类比：经过清洗和标准化处理的零部件
目的：存储清洗验证后的结构化数据，称为"清洁集成区"
特性：
- 数据清洗：处理格式不一致/缺失值/错误记录
- 标准化：统一命名规范与数据类型
- 基础转换：简单关联（如商品与类目关联），不含聚合计算
- 字段筛选：剔除青铜层冗余字段
- 结构化存储：Parquet等列式存储格式
使用者：数据科学家（特征工程）、分析师（探索性分析）
项目实现：存储在MinIO的silver-layer存储桶，文件如slv.stores、slv.products等

数据入白银层流程

Spark作业从青铜层读取数据，清洗后写入白银层。以stores表处理为例：

# 来源: scripts/batch/silver_dimensions.py

def read_bronze_layer(spark, table):
    return spark.read.parquet(f"s3a://bronze-layer/{table}")  # <<< 从青铜层读取

def cleand_stores(spark, silver_path, table):
    source_df = read_bronze_layer(spark, table="brz.stores")  # 读取原始门店数据
  
    # 清洗示例：移除城市名称中的\r字符
    cleaned_df = source_df.withColumn("city_cleaned", expr("regexp_replace(city, '\\\\r$', '')"))  # <<< 数据清洗
  
    # 字段选择与重命名
    output_df = cleaned_df.selectExpr(
        "id AS store_id",
        "name AS store_name",
        "address",
        "district",
        "city_cleaned AS city",  # 使用清洗后字段
        "updated_at"
    )

    output_df.write.mode("overwrite").parquet(f"{silver_path}/{table}")  # <<< 写入白银层

关键步骤：

从青铜层读取原始数据

def cleand_stores(spark, silver_path, table):
    source_df = read_bronze_layer(spark, table="brz.stores")  # 读取原始门店数据

使用正则表达式清洗city字段
选择关键字段并标准化命名
overwrite模式覆写最新清洗数据（维度表常用）

3. 黄金层（终端成品）

类比：组装完毕待售的成品
目的：存储高度聚合/建模数据，采用星型/雪花模型等分析友好结构，称为"消费区"
特性：
- 即席查询：直接供BI工具（Tableau/Power BI）使用
- 聚合建模：按日/门店汇总销售数据，构建事实表与维度表
- 业务逻辑：集成复杂计算规则（如促销计算）
- 读取优化：列式存储+分区+索引加速查询
- 数据融合：整合多白银表及外部数据源
使用者：商业分析师/报表系统/机器学习模型
项目实现：存储在MinIO的gold-layer存储桶，使用Delta Lake格式，包含gld.dim_stores等维度表和gld.fact_orders事实表

数据入黄金层流程

Spark作业整合白银层数据和现有黄金维度表，构建最终数据集：

# 来源: scripts/batch/gold_fact_orders.py

def write_to_fact_orders(spark, gold_path):
    # 读取白银层订单数据
    orders = read_silver_layer(spark, table="orders")
    order_details = read_silver_layer(spark, table="order_details")
  
    # 读取黄金维度表
    dim_products = read_gold_layer(spark, table="dim_products")
    dim_stores = read_gold_layer(spark, table="dim_stores")

    # 关联事实数据与维度表
    join_df = new_orders.join(order_details, ...)  # 关联订单明细
    join_df = join_df.join(broadcast(dim_products), ...)  # 关联商品维度
  
    # 构建事实表结构
    final_fact_df = join_df.selectExpr(
        "year", "month", "day",
        "s_store_key AS store_key",  # 维度代理键
        "od_quantity AS quantity"    # 度量值
    )

    final_fact_df.write.format("delta").partitionBy("year", "month", "day").save(f"{gold_path}/gld.fact_orders")  # <<< 写入黄金层

关键步骤：

从白银层读取订单明细数据
关联黄金维度表获取代理键（实现SCD逻辑）
构建星型模型结构（事实表+维度键）
使用Delta格式写入，实现ACID事务支持

数据层对比

特性	青铜层	白银层	黄金层
数据状态	原始数据	清洗结构化数据	聚合建模数据
转换复杂度	格式转换	清洗/标准化	业务逻辑/关联聚合
使用者	数据工程师	数据科学家/工程师	分析师/BI工具
存储路径	`s3a://bronze-layer/`	`s3a://silver-layer/`	`s3a://gold-layer/`
存储格式	Parquet	Parquet	Delta Lake

数据流动图

总结

数据层（青铜/白银/黄金）在MinIO数据湖中构建了分级处理体系$CITE_6：

青铜层作为不可变原始数据存档
白银层提供标准化清洗数据
黄金层交付业务就绪型数据集

该分层架构支撑了从原始数据到商业洞察的全链路处理，各层特性满足不同角色的数据消费需求

下一章：Airflow DAG（批量任务编排）

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
什么是缓存雪崩？缓存击穿？缓存穿透？分别如何解决？什么是缓存预热？ daixin8848 缓存 redis java 开发语言
缓存雪崩：在一个时间段内，有大量的key过期，或者Redis服务宕机，导致大量的请求到达数据库,带来巨大压力-给key设置不同的TTL、利用Redis集群提高服务的高可用性、添加多级缓存、添加降级流策略缓存击穿：给某一个key设置了过期时间，当key过期的时间，恰好这个时间点有大量的并发请求访问这个key，可能会瞬间把数据库压垮-互斥锁：缓存失败时，只允许一个请求去加载数据并更新缓存，其他请求阻塞
Aop +反射实现方法版本动态切换
需求分析在做技术选型的时候一直存在着两个声音，mongo作为数据库比较mysql好，mysql做为该数据比mongo好。当然不同数据库都有有着自己的优势，我们在做技术选型的时候无非就是做到对数据库的扬长避短。mysql最大的优势就是支持事务，事务的五大特性保证的业务可靠性，随之而来的就是事务会产生的问题：脏读、幻读、不可重复度，当然我们也会使用不同的隔离级别来解决。（最典型的业务问题：银行存取钱）
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
MySQL复习题
一.填空题1.关系数据库的标准语言是SQL。2.数据库发展的3个阶段中，数据独立性最高的是阶段数据库系统。3.概念模型中的3种基本联系分别是一对一、一对多和多对多。4.MySQL配置文件的文件名是my.ini或my.cnf。5.在MySQL配置文件中，datadir用于指定数据库文件的保存目录。6.添加IFNOTEXISTS可在创建的数据库已存在时防止程序报错。7.MySQL提供的SHOWCREA
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
大数据之路：阿里巴巴大数据实践——大数据领域建模综述
为什么需要数据建模核心痛点数据冗余：不同业务重复存储相同数据（如用户基础信息），导致存储成本激增。计算资源浪费：未经聚合的明细数据直接参与计算（如全表扫描），消耗大量CPU/内存资源。数据一致性缺失：同一指标在不同业务线的口径差异（如“活跃用户”定义不同），引发决策冲突。开发效率低下：每次分析需重新编写复杂逻辑，无法复用已有模型。数据建模核心价值性能提升：分层设计（ODS→DWD→DWS→ADS）
Android GreenDao介绍和Generator生成表对象代码
目录(?)[-]介绍创建工程转载请注明：http://blog.csdn.net/sinat_30276961/article/details/50052109最近无意中发现了GreenDao，然后查看了一些资料后，发现这个数据库框架很适合用，于是乎，查看了官网的api，并自己写了一个小应用总结一下它的使用方法。介绍按照国际惯例，在开篇，总要先介绍一下什么是GreenDao吧。首先需要说明的是Gr
Java8 Stream流的sorted()的排序【正序、倒序、多字段排序】 Tony666688888 java windows 开发语言
针对集合排序，java8可以用Stream流的sorted()进行排序。示例Bean以下我们会使用这个Bean来做示例。publicclassOrder{privateStringweight;privateDoubleprice;privateStringdateStr;//忽略getter、setter、构造方法、toString}字段排序首先是比较器Comparator，形式如下：Compa
Unity学习笔记1 zy_777
通过一个星期的简单学习，初步了解了下unity，unity的使用，以及场景的布局，UI，以及用C#做一些简单的逻辑。好记性不如烂笔头，一些关键帧还是记起来比较好，哈哈，不然可能转瞬即逝了，（PS:纯小白观点，unity大神可以直接忽略了）一：MonoBehaviour类的初始化1，Instantiate()创建GameObject2，通过Awake()和Start()来做初始化3，Update、L
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
lesson20：Python函数的标注你的电影很有趣 python 开发语言
目录引言：为什么函数标注是现代Python开发的必备技能一、函数标注的基础语法1.1参数与返回值标注1.2支持的标注类型1.3Python3.9+的重大改进：标准集合泛型二、高级标注技巧与最佳实践2.1复杂参数结构标注2.2函数类型与回调标注2.3变量注解与类型别名三、静态类型检查工具应用3.1mypy：最流行的类型检查器3.2Pyright与IDE集成3.3运行时类型验证四、函数标注的工程价值与
Jupyter Notebook：数据科学的“瑞士军刀” a小胡哦机器学习基础人工智能机器学习
在数据科学的世界里，JupyterNotebook是一个不可或缺的工具，它就像是数据科学家手中的“瑞士军刀”，功能强大且灵活多变。今天，就让我们一起深入了解这个神奇的工具。一、JupyterNotebook是什么？JupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它支持多种编程语言，其中Python是最常用的语言之一。Jupy
大数据技术笔记—spring入门卿卿老祖
篇一spring介绍spring.io官网快速开始Aop面向切面编程，可以任何位置，并且可以细致到方法上连接框架与框架Spring就是IOCAOP思想有效的组织中间层对象一般都是切入service层spring组成前后端分离已学方式，前后台未分离：Spring的远程通信：明日更新创建第一个spring项目来源：科多大数据
Mac OSX 下的mysql数据库文件存放位置 Bruuuces mysql mac osx 位置存放
之前我的mysql的系统数据库里的表被我玩坏了，万般无奈之下只得删除所有mysql的东西重新构建数据库。按照网上搜到的内容删除后重装发现数据库没有什么变化。于是自己在每个可能存放数据库文件的目录查找，最终确认目录位置如下:使用HomeBrew安装为/usr/local/var/mysql使用官方下载的dmg镜像安装为/usr/local/mysql删除这个目录再重新安装mysql就会重新生成系统数
Django学习笔记（一）
学习视频为：pythondjangoweb框架开发入门全套视频教程一、安装pipinstalldjango==****检查是否安装成功django.get_version()二、django新建项目操作1、新建一个项目django-adminstartprojectproject_name2、新建APPcdproject_namedjango-adminstartappApp注：一个project
Python 程序设计讲义（26）：字符串的用法——字符的编码睿思达DBA_WGX Python 讲义 python 开发语言
Python程序设计讲义（26）：字符串的用法——字符的编码目录Python程序设计讲义（26）：字符串的用法——字符的编码一、字符的编码二、`ASCII`编码三、`Unicode`编码四、使用`ord()`函数查询一个字符对应的`Unicode`编码五、使用`chr()`函数查询一个`Unicode`编码对应的字符六、`Python`字符串的特征一、字符的编码计算机默认只能处理二进制数，而不能处
mac升级mysql_Mac OSX下的MySQL数据库升级 weixin_39801714 mac升级mysql
MacOSX下的数据库升级最麻烦的不过权限的问题.本文的MySQL的安装方式为OSX下DMG磁盘镜像的安装方式,MacPorts/Homebrew的方式大同小异.从5.6.17升级到5.7.18安装目录信息ls-al/usr/local|grepmysqllrwxr-xr-x1rootwheel30B52100:39mysql@->mysql-5.6.17-osx10.7-x86_64drwxr-
【Python】pypinyin-汉字拼音转换工具鸟哥大大 Python python 自然语言处理
文章目录1.主要功能2.安装3.常用API3.1拼音风格3.2核心API3.2.1pypinyin.pinyin()3.2.2pypinyin.lazy_pinyin()3.2.3pypinyin.load_single_dict()3.2.4pypinyin.load_phrases_dict()3.2.5pypinyin.slug()3.3注册新的拼音风格4.基本用法4.1库导入4.2基本汉字
python编程第十四课：数据可视化小小源助手 Python代码实例信息可视化 python 开发语言
Python数据可视化：让数据“开口说话”在当今数据爆炸的时代，数据可视化已成为探索数据规律、传达数据信息的关键技术。Python凭借其丰富的第三方库，为数据可视化提供了强大而灵活的解决方案。本文将带你深入了解Matplotlib库的基础绘图、Seaborn库的高级可视化以及交互式可视化工具Plotly，帮助你通过图表清晰地展示数据背后的故事。一、Matplotlib库基础绘图Matplotlib
【MySQL】MySQL数据库如何改名武昌库里写JAVA 面试题汇总与解析 spring boot vue.js sql java 学习
MySQL建库授权语句https://www.jianshu.com/p/2237a9649ceeMySQL数据库改名的三种方法https://www.cnblogs.com/gomysql/p/3584881.htmlMySQL安全修改数据库名几种方法https://blog.csdn.net/haiross/article/details/51282417MySQL重命名数据库https://
HikariCP调试日志深度解析：生产环境故障排查完全指南
HikariCP调试日志深度解析：生产环境故障排查完全指南更新时间：2025年7月4日|作者：资深架构师|适用版本：HikariCP5.x+|难度等级：中高级前言在生产环境中，数据库连接池往往是系统性能的关键瓶颈。HikariCP作为当前最流行的Java连接池，其调试日志包含了丰富的运行时信息，能够帮助我们快速定位和解决各种连接池相关问题。本文将深入解析HikariCP的日志体系，提供一套完整的故
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默

[Data Pipeline] MinIO存储（数据湖) | 数据层 Bronze/Silver/Gold

第三章：MinIO存储（数据湖）

什么是数据湖？

什么是MinIO？

MinIO中的数据组织：存储桶与路径

为什么选择MinIO？

Spark作业与MinIO的交互

后台工作原理

Docker Compose中的MinIO配置

Spark读写示例

总结

第四章：数据层（青铜、白银、黄金）

1. 青铜层（原材料堆）

数据入青铜层流程

2. 白银层（清洁标准件）

数据入白银层流程

3. 黄金层（终端成品）

数据入黄金层流程

数据层对比

数据流动图

总结

你可能感兴趣的:(#,Date,Pipeline.大数据,数据库,python)