掌握大数据领域数据湖的部署要点

关键词：数据湖, 大数据部署, 数据治理, 存储架构, 元数据管理, 数据质量, 湖仓一体

摘要：在数据爆炸的时代，企业面临着"数据多却用不好"的困境——结构化数据藏在数据库里，非结构化数据堆在服务器上，半结构化数据散落在日志文件中。数据湖就像一个"智能中央仓库"，能统一存储所有类型的数据，并通过灵活的管理让数据"活起来"。本文将用"图书馆管理员建仓库"的故事，从概念理解、架构设计、部署步骤到实战案例，一步步拆解数据湖部署的核心要点，帮你避开"数据沼泽"的陷阱，真正让数据成为企业的资产。

背景介绍

目的和范围

想象你是一家超市的老板，每天收到无数数据：收银台的交易记录（结构化）、顾客的留言录音（非结构化）、供应商的Excel报价单（半结构化）。如果这些数据分散在不同的电脑里，你永远无法知道"哪些顾客喜欢在周末买零食"。数据湖的使命就是把这些"散装数据"变成"整装资产"——本文将聚焦数据湖从0到1部署的全流程，包括为什么需要数据湖、核心组件如何搭配、部署时要踩哪些坑，以及如何让数据湖真正产生价值。

预期读者

无论你是刚接触大数据的"萌新"数据工程师，还是负责架构设计的技术负责人，甚至是想了解数据管理的业务人员，本文都能帮你建立数据湖的完整认知。我们会从"小学生能懂的比喻"讲到"工程师能用的实操步骤"，确保每个读者都能找到自己需要的内容。

文档结构概述

本文就像"搭积木建仓库"的说明书：先介绍"为什么要建仓库"（背景），再解释"仓库由哪些部分组成"（核心概念），接着教你"怎么一步步搭起来"（部署步骤），然后带你"动手搭一个迷你仓库"（实战案例），最后聊聊"仓库未来能变成什么样"（发展趋势）。全程穿插生活例子和可视化图表，保证你看得懂、记得住、用得上。

术语表

核心术语定义

数据湖（Data Lake）：存储所有类型原始数据的"超级仓库"，数据进来时不做过多处理，需要时再按需加工（类比：未分类的快递仓库，包裹原样存放，需要时根据标签找）。
数据仓库（Data Warehouse）：存储已清洗、分类、结构化数据的"精品货架"，数据进来前要先处理成统一格式（类比：分类好的图书馆，书按主题上架，直接就能借阅）。
元数据（Metadata）：描述数据的数据，相当于数据的"身份证"，记录数据在哪、是什么格式、谁能用（类比：快递单上的地址、收件人、物品名称）。
数据治理（Data Governance）：管理数据全生命周期的"规章制度"，包括谁能访问数据、数据质量怎么保证、数据安全怎么防护（类比：仓库的门禁系统、物品安检流程、保质期管理）。

缩略词列表

DL：Data Lake（数据湖）
DWH：Data Warehouse（数据仓库）
HDFS：Hadoop Distributed File System（Hadoop分布式文件系统，数据湖常用存储）
S3：Amazon Simple Storage Service（AWS对象存储，云数据湖常用）
Hive：基于Hadoop的数据仓库工具，可管理数据湖元数据
Spark：分布式计算引擎，用于数据湖数据处理
Atlas：Apache Atlas，开源数据治理工具

核心概念与联系

故事引入：从"混乱的文件柜"到"智能仓库"

小明是一家电商公司的数据管理员，每天最头疼的事就是"找数据"。

运营同事要"过去半年用户购买记录"，数据在MySQL数据库里，得写SQL查；
产品同事要"用户点击行为日志"，数据在服务器的.log文件里，得用Python脚本解析；
老板要"用户评价的情感分析"，数据是Excel表格和录音文件，散落在共享文件夹里。

有一天，小明加班到深夜，看着电脑里十几个文件夹、二十多个数据库连接，突然想：“如果有一个地方，能把所有数据都放进去，不管是数据库表、日志文件还是录音，而且想要什么数据，一点就能找到，那该多好？”

这个"梦想中的地方"，就是数据湖。但建数据湖可没那么简单——如果只是把所有数据随便堆进去，就会变成"数据垃圾场"；只有搭好架子、做好标签、定好规矩，才能变成"智能仓库"。接下来，我们就一起看看这个"智能仓库"是怎么构成的。

核心概念解释（像给小学生讲故事一样）

核心概念一：数据湖——为什么它不是"数据池塘"？

数据湖就像学校的"综合储物室"：

什么都能放：课本（结构化数据，如数据库表）、画纸（非结构化数据，如图片）、录音笔（音频文件）、同学的便签（半结构化数据，如JSON日志）；
原样存放：课本不拆封，画纸不裁剪，录音笔不转格式，保留最原始的样子；
按需取用：需要时再拿出来加工，比如把录音笔里的内容转成文字，把画纸扫描成电子版。

为什么叫"湖"而不是"池塘"？因为池塘小，只能装一点水；湖很大，能装各种水（数据），而且能让不同的"船"（计算工具）在上面航行（处理数据）。

核心概念二：数据湖的"四大支柱"——少一个都站不稳

想象数据湖是一座房子，需要四根柱子支撑：

存储柱：房子的"地基和墙壁"，决定能放多少东西。比如HDFS（本地自建时用）像"自建仓库"，自己买地、盖墙；S3（AWS的存储服务）像"租赁仓库"，按月付钱，不够了随时扩。
元数据柱：房子的"门牌和导航"，让你知道东西在哪。比如你家冰箱贴的"牛奶在左门第二层"就是元数据；数据湖里，元数据会记录"用户日志存放在/s3/logs/202310/，格式是JSON，包含用户ID和点击时间"。
计算柱：房子的"工具间"，负责加工东西。比如Spark像"多功能机床"，能切割（过滤数据）、焊接（关联数据）、打磨（清洗数据）；Flink像"流水线"，能实时处理源源不断的数据（比如实时统计用户在线人数）。
治理柱：房子的"保安和管理员"，保证安全和秩序。比如权限管理像"门禁卡"，只有财务能进财务数据区；数据质量检查像"安检仪"，防止"坏数据"（如负数的销售额）混进来。

核心概念三：数据湖vs数据仓库——就像"菜市场"和"餐厅后厨"

对比项	数据湖（菜市场）	数据仓库（餐厅后厨）
数据类型	啥都有：生肉（原始数据）、蔬菜、活鱼	只有切好的菜（加工后数据）
处理方式	买回去自己做（ELT：先存后加工）	直接下锅炒（ETL：先加工再存）
用户	家庭主妇（数据科学家、分析师）	厨师（业务报表、决策支持）
灵活性	高（想做啥菜都行）	低（只能做菜单上的菜）

举个例子：如果要做"红烧肉"，数据仓库里可能只有"切好的五花肉"（结构化数据），直接就能用；数据湖里有"带皮的整块五花肉"（原始数据）、“八角桂皮”（其他相关数据），你可以自己决定切成多大块、放多少调料（灵活加工）。

核心概念之间的关系（用小学生能理解的比喻）

数据湖的四大支柱不是孤立的，它们像"乐队"一样配合：

存储和元数据：就像书架和书签
存储是书架，负责放书（数据）；元数据是书签，记录书的位置（存在哪）、作者（数据来源）、内容简介（数据字段）。没有书签的书架，找书要一本本翻（就像没有元数据的数据湖，找数据要遍历所有文件）。
元数据和计算：就像地图和导航
计算引擎（如Spark）想处理数据时，先看元数据"地图"：“用户数据在HDFS的/userdata路径，格式是Parquet”，然后根据地图导航到目标位置，把数据取出来加工。没有元数据，计算引擎就像"迷路的司机"，不知道该往哪开。
治理和存储：就像保安和仓库大门
治理系统（如权限管理）控制谁能进仓库（存储）、能拿什么东西。比如普通员工只能看公开数据（如产品列表），管理员能改数据（如修正错误的销售额）。没有治理，仓库就像"没锁门"，谁都能进，数据可能被偷（泄露）或弄坏（篡改）。
四大支柱一起工作：就像做蛋糕
存储是"食材盒子"（放面粉、鸡蛋），元数据是"食材标签"（写着面粉在哪、保质期多久），计算是"搅拌机和烤箱"（把食材做成蛋糕），治理是"卫生检查"（保证食材没过期、操作符合规范）。少了任何一个，蛋糕要么做不成，要么不能吃。

核心概念原理和架构的文本示意图（专业定义）

数据湖的典型架构是"分层金字塔"，从下到上依次为：

数据源层：数据的"源头"，包括业务数据库（MySQL、Oracle）、日志文件（.log、JSON）、物联网设备（传感器数据）、外部数据（天气API、行业报告）等。
存储层：数据的"家"，负责持久化存储所有原始数据。主流选择有两类：
- 本地部署：HDFS（适合大规模自建集群，成本低但需维护硬件）；
- 云部署：AWS S3、Azure Data Lake Storage（ADLS）、Google Cloud Storage（GCS）（按需付费，弹性扩展，无需管硬件）。
元数据管理层：数据的"身份证系统"，记录数据的位置、格式、schema（字段信息）、血缘（数据从哪来到哪去）、权限等。工具包括Hive Metastore（Hadoop生态常用）、AWS Glue（云数据湖常用）、Alation（企业级元数据平台）。
计算引擎层：数据的"加工厂"，负责数据的提取、清洗、转换、分析。工具分三类：
- 批处理：Spark（处理海量历史数据，如计算上月销售额）；
- 流处理：Flink、Kafka Streams（处理实时数据，如实时监控用户行为）；
- 查询分析：Presto、Impala（快速查询数据，如即席分析）。
数据治理层：数据的"管理中心"，确保数据可用、可信、安全。包括：
- 权限管理：Apache Ranger、AWS IAM（控制谁能访问数据）；
- 数据质量：Great Expectations、Talend（检查数据是否完整、准确，如检测销售额是否为负数）；
- 数据安全：Apache Atlas（数据分类、脱敏，如隐藏用户手机号中间四位）。
数据服务层：数据的"输出窗口"，将处理后的数据提供给下游应用。包括API接口（供App调用）、BI工具（如Tableau、Power BI，生成可视化报表）、机器学习平台（如TensorFlow，训练预测模型）。

Mermaid 流程图：数据湖数据流转全流程

业务数据库/日志/文件

HDFS/S3/ADLS

记录数据位置/格式/权限

Spark清洗/Flink实时处理

权限检查/质量校验

BI报表/API/AI模型

指导决策/优化运营

数据源接入

原始数据存储

元数据注册

数据处理

治理管控

数据应用

业务价值输出

流程说明：

数据从各种源头（数据库、日志等）进入数据湖；
先存到原始存储层（如S3），保持原样；
元数据系统自动记录数据的"身份信息"（在哪、是什么）；
计算引擎（如Spark）根据需求加工数据（清洗、关联等）；
治理系统检查数据是否合规（权限是否够、质量是否达标）；
处理好的数据通过BI工具、API等输出给业务；
业务反馈又会产生新数据，形成闭环。

数据湖部署核心步骤 & 关键决策

部署数据湖就像"盖房子"，需要按步骤来：先规划图纸（需求分析），再选材料（技术选型），然后打地基（环境搭建），接着砌墙装窗（组件部署），最后装修入住（数据接入和治理）。下面我们一步步拆解每个环节的要点和"避坑指南"。

步骤一：需求分析与规划——先想清楚"为什么盖仓库"

盖房子前要问："这房子给谁住？放什么东西？要住多久？"数据湖部署也一样，先明确三个核心问题：

1.1 数据需求：要存什么数据？

数据类型：结构化（MySQL表、CSV）、非结构化（图片、音频）、半结构化（JSON、XML）？各占多少比例？
▶ 例：电商公司可能有80%结构化数据（交易记录）、15%半结构化（用户日志）、5%非结构化（商品图片）。
数据量：现在有多少数据？未来3年预计增长到多少？
▶ 例：目前10TB，每年增长5TB，3年后需25TB存储。
数据来源：来自哪些系统？数据库（MySQL/Oracle）、日志（Flume采集）、云服务（AWS CloudWatch）还是第三方API？

避坑指南：别贪多！一开始就想"把所有数据都放进湖"，结果90%的数据永远用不上，浪费存储成本。先梳理业务优先级：哪些数据是"马上要用的"（如交易数据），哪些是"未来可能用的"（如历史日志），哪些是"肯定不用的"（过时的测试数据）。

1.2 用户需求：谁会用数据湖？

不同用户需要不同的"门"和"工具"：

数据科学家：需要直接访问原始数据，用Python/Spark分析，所以要有Jupyter Notebook接口；
业务分析师：需要现成的报表，所以要对接Tableau/BI工具；
开发工程师：需要API调用数据，所以要开发数据服务接口。

避坑指南：别只听"领导需求"，多和一线用户聊！比如业务分析师可能需要"按地区筛选数据"，但如果数据湖没存地区字段，后期补就很麻烦。

1.3 技术需求：性能、安全、成本怎么平衡？

性能：查询延迟要求？实时数据（如监控系统）需要秒级响应，历史报表可以小时级；
安全：是否有敏感数据（如用户身份证号）？需要脱敏、加密还是权限隔离？
成本：预算多少？本地部署（前期硬件贵，长期维护便宜）vs云部署（按需付费，灵活但长期可能贵）？

决策表格：本地vs云部署对比

维度	本地部署（HDFS）	云部署（S3/ADLS）
初始成本	高（买服务器、机房）	低（按需付费）
扩展成本	高（加服务器）	低（直接调配置）
维护难度	高（需运维团队管硬件）	低（云厂商负责硬件）
适合场景	数据量大（>100TB）、长期稳定使用	数据量波动大、快速上线

步骤二：技术选型——选对"材料"才能盖好房

数据湖的技术选型就像"选装修材料"：地板选实木还是复合（存储选HDFS还是S3）？门锁选机械还是智能（权限管理选Ranger还是IAM）？要根据需求选，别盲目追"网红材料"（新技术）。

2.1 存储层选型：数据的"地基"

存储方案	优点	缺点	适合场景
HDFS	成本低、适合大规模数据、生态成熟	扩展慢、需维护硬件	本地自建、数据量>50TB
AWS S3	无限扩展、按需付费、高可用	长期存储成本高、API调用收费	云原生、数据量波动大
Azure ADLS Gen2	兼容HDFS API、分层存储（热/冷）	依赖Azure生态	微软技术栈企业
Google GCS	与BigQuery无缝集成、多区域备份	海外访问快，国内延迟高	跨国公司、用Google Cloud的

选型决策树：

如果用云平台 → 选对应云厂商的对象存储（AWS用S3，Azure用ADLS）；
如果本地部署且数据量大 → 选HDFS；
如果有冷数据（很少访问） → 选支持分层存储的（S3 Glacier、ADLS冷存储），成本能降50%+。

2.2 元数据管理层选型：数据的"导航系统"

工具	优点	缺点	适合场景
Hive Metastore	开源免费、Hadoop生态标配	功能简单（仅存schema）	中小团队、Hadoop技术栈
AWS Glue	自动发现数据、与S3无缝集成	云厂商锁定、收费（按爬取次数）	AWS云数据湖
Alation	支持数据血缘、用户协作	价格贵（企业级）	大型企业、复杂数据治理需求
Apache Atlas	开源、支持数据分类和安全策略	部署复杂、需二次开发	有技术能力的中大型团队

避坑指南：别忽视元数据！某电商公司早期用Hive Metastore，但没记录数据血缘，后来发现"销售额报表"数据不对，花了一周才找到是上游数据源格式变了——如果有血缘追踪，5分钟就能定位问题。

2.3 计算引擎选型：数据的"加工厂"

引擎类型	代表工具	优点	适合场景
批处理	Spark	处理速度快（比MapReduce快100x）、支持多语言	海量历史数据处理（如月度报表）
流处理	Flink	低延迟（毫秒级）、 Exactly-Once语义	实时数据处理（如实时监控）
SQL查询	Presto/Impala	类SQL语法、查询速度快	即席分析（临时查数据）
轻量计算	Trino	兼容多种数据源（HDFS/S3/MySQL）	跨数据源查询

组合建议：批处理用Spark + 流处理用Flink + SQL查询用Presto，覆盖90%的计算需求。

2.4 数据治理层选型：数据的"保安系统"

治理方向	工具	功能
权限管理	Apache Ranger/AWS IAM	基于角色的访问控制（RBAC），控制用户对数据的读写权限
数据质量	Great Expectations/Talend	定义数据规则（如"销售额>0"），自动检查并报警
数据安全	Apache Atlas/Hive Masking	数据脱敏（如手机号显示为138****5678）、数据分类（标记敏感数据）
数据血缘	Apache Atlas/Linkedin DataHub	记录数据从源头到最终报表的全链路，方便问题定位

步骤三：环境搭建——从"空地"到"毛坯房"

选好材料后，就可以动手搭环境了。这里以"本地部署Hadoop数据湖"和"AWS云数据湖"为例，对比两种场景的搭建步骤。

3.1 本地部署（Hadoop生态）：自建"仓库"

硬件准备：至少3台服务器（HDFS需要3副本存储），配置建议：

每台服务器：CPU 16核、内存64GB、硬盘10TB（SSD用于计算，HDD用于存储）；
网络：万兆以太网（数据传输快）。

软件部署步骤：

安装操作系统：CentOS 7或Ubuntu 20.04（Linux兼容性最好）；
配置环境：关闭防火墙、设置SSH免密登录、安装JDK 1.8（Hadoop依赖Java）；

部署HDFS：

# 下载Hadoop安装包
wget https://archive.apache.org/dist/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
tar -zxvf hadoop-3.3.4.tar.gz

# 配置HDFS（修改hdfs-site.xml）
<property>
  <name>dfs.replication</name>
  <value>3</value>  # 数据副本数，默认3
</property>
<property>
  <name>dfs.namenode.name.dir</name>
  <value>/data/hadoop/namenode</value>  # NameNode数据目录
</property>

# 启动HDFS
sbin/start-dfs.sh

部署YARN（资源管理器）：管理CPU、内存等资源，让Spark等计算引擎能调度资源；
部署Hive Metastore：存储元数据，需先装MySQL作为Metastore的数据库；
部署Spark：解压安装包，配置Spark依赖Hadoop和YARN。

验证环境：访问HDFS Web界面（http://namenode-ip:9870），能看到集群状态和存储空间，说明HDFS部署成功。

3.2 云部署（AWS S3 + Glue）：租赁"仓库"

云部署比本地简单10倍，因为硬件和基础软件都由AWS托管：

创建S3存储桶：登录AWS控制台 → S3 → 创建存储桶（如"my-company-datalake"），开启版本控制（防止数据误删）；
配置Glue Crawler：自动发现S3中的数据并生成元数据：
- 新建Crawler → 选择数据源为S3（路径如"s3://my-company-datalake/raw/"）；
- 选择目标数据库（Glue Data Catalog中的数据库）；
- 设置爬取频率（如每天凌晨爬取新数据）；
部署EMR集群（计算资源）：EMR是AWS的Hadoop集群服务，预装了Spark、Hive等工具：
- 新建EMR集群 → 选择应用（Spark、Hive） → 选择实例类型（按需选择CPU/内存）；
配置权限：通过IAM角色控制EMR集群对S3的访问权限（如只允许读取raw目录，写入processed目录）。

验证环境：在Glue Data Catalog中能看到Crawler爬取到的表结构，说明元数据注册成功；用EMR的Spark Shell读取S3中的数据，能正常返回结果，说明计算引擎集成成功。

步骤四：数据接入——把"散装数据"搬进仓库

环境搭好了，接下来要把数据从各个源头"搬进"数据湖。数据接入就像"快递收货"，要保证"包裹"（数据）完整、准确、按时到仓。

4.1 数据接入策略："怎么搬"更高效？

数据类型	接入工具	接入方式	适合场景
关系型数据库	Sqoop/Debezium	Sqoop（批量全量同步）、Debezium（CDC增量同步）	MySQL/Oracle数据
日志文件	Flume/Filebeat	实时采集（秒级）	服务器日志、应用日志
消息队列	Kafka Connect	从Kafka消费数据写入数据湖	实时数据流（如用户行为）
云服务数据	AWS DataSync/Azure Data Factory	跨云同步（如从Azure Blob到S3）	多云环境数据整合
文件数据	AWS CLI/rclone	命令行上传（如CSV/Excel）	手动收集的业务数据

4.2 数据分层：给数据"分区域存放"

数据湖中的数据不能堆在一起，要像"仓库分区"一样分层，方便管理和使用。推荐"四层分层法"：

Raw层（原始数据层）：刚搬进仓库的"未拆封包裹"，数据原样存储，文件名包含来源和时间（如"s3://datalake/raw/mysql/orders/2023-10-01/"）。
▶ 目的：保留原始数据，万一加工错了可以重来。
Staging层（清洗层）：拆封后"初步整理的包裹"，做简单清洗（去空值、格式转换），但不改变数据核心内容。
▶ 例：把JSON日志转成Parquet格式（压缩率高，查询快），删除完全重复的行。
Processed层（加工层）：按业务需求"打包好的商品"，做关联、聚合等加工（如关联用户表和订单表，计算用户总消费）。
▶ 例：计算"每个用户的月均消费"，结果存为Parquet格式，按用户ID分区。
Consumption层（应用层）：直接给用户"提货的货架"，数据已准备好，可直接对接BI工具或API。
▶ 例：存储Tableau报表需要的"各地区销售额汇总表"。

分层好处：

数据复用：Staging层的数据可以被多个Processed层任务使用，不用重复清洗；
问题定位：如果应用层数据错了，先查Processed层，再查Staging层，快速定位问题。

4.3 接入示例：用Python+PySpark同步MySQL数据到HDFS

假设要把MySQL的orders表同步到数据湖的Raw层和Staging层：

1. Raw层同步（全量数据，每日一次）：
用Sqoop从MySQL全量导出数据到HDFS：

sqoop import \
  --connect jdbc:mysql://mysql-host:3306/ecommerce \
  --username root \
  --password password \
  --table orders \
  --target-dir /datalake/raw/mysql/orders/$(date +%Y-%m-%d) \
  --as-textfile  # 原始格式存储（CSV）

2. Staging层清洗（转Parquet格式，去重）：
用PySpark读取Raw层数据，清洗后写入Staging层：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col

# 初始化SparkSession
spark = SparkSession.builder.appName("orders-cleaning").getOrCreate()

# 读取Raw层CSV数据
raw_orders = spark.read.csv(
  "/datalake/raw/mysql/orders/2023-10-01",
  header=True,  # 第一行是表头
  inferSchema=True  # 自动推断字段类型
)

# 清洗：去重（按order_id）、删除空值（过滤掉order_id为null的行）
cleaned_orders = raw_orders \
  .dropDuplicates(["order_id"]) \
  .filter(col("order_id").isNotNull())

# 写入Staging层，格式为Parquet（压缩率高，查询快）
cleaned_orders.write.parquet(
  "/datalake/staging/mysql/orders/2023-10-01",
  mode="overwrite"  # 如果已存在，覆盖
)

spark.stop()

3. 注册元数据到Hive Metastore：
让后续查询能通过Hive SQL访问Staging层数据：

-- 在Hive中创建外部表，关联Staging层的Parquet数据
CREATE EXTERNAL TABLE staging.orders (
  order_id INT,
  user_id INT,
  amount DOUBLE,
  order_time STRING
)
STORED AS PARQUET
LOCATION '/datalake/staging/mysql/orders/2023-10-01';

步骤五：元数据管理——给数据"办身份证"

没有元数据的数据湖，就像没有目录的图书馆——读者找不到书，管理员理不清书。元数据管理要解决三个问题：数据在哪？数据是什么样的？数据从哪来到哪去？

5.1 元数据要记录哪些信息？

元数据就像"数据的简历"，至少包含这些字段：

元数据类型	核心信息	例子
技术元数据	存储位置、格式、大小、字段类型	位置：s3://datalake/staging/orders；格式：Parquet；字段：order_id（INT）
业务元数据	数据用途、所属业务域、负责人	用途：计算用户消费；业务域：电商-交易；负责人：张三（数据工程师）
操作元数据	接入时间、更新频率、加工任务ID	接入时间：2023-10-01 02:00；更新频率：每日一次；任务ID：spark-job-123
血缘元数据	上游数据源、下游消费表	上游：MySQL.orders；下游：processed.user_consumption

5.2 元数据采集：自动vs手动

自动采集：适合技术元数据（如存储位置、格式），通过工具自动获取：
▶ Glue Crawler：爬取S3数据时自动生成表结构和存储位置；
▶ Spark Listener：Spark任务运行时自动记录数据读写路径，生成血缘。
手动录入：适合业务元数据（如数据用途、负责人），通过元数据平台的Web界面手动填写：
▶ Alation：支持用户手动添加"数据描述"和"业务术语"；
▶ DataHub：允许业务人员标注数据所属的业务域。

5.3 元数据应用：让数据"活起来"

元数据不是"死档案"，而是"活工具"，能帮用户解决实际问题：

数据发现：用户通过元数据平台搜索"订单金额"，找到包含该字段的所有表；
问题排查：报表数据异常时，通过血缘元数据追溯上游数据源，发现是MySQL表结构变更导致；
影响分析：要修改上游orders表时，通过血缘查看哪些下游表会受影响，提前通知用户。

步骤六：数据治理——给数据湖"定规矩"

如果数据湖是一个城市，数据治理就是"交通规则"——没有规则，车（数据）乱开，就会堵车（数据混乱）甚至撞车（数据安全事故）。数据治理的核心是"管住数据的全生命周期"：从产生到销毁，每一步都有章可循。

6.1 权限管理：“谁能进哪个房间”

权限管理要做到"最小权限原则"——只给用户必要的权限，比如：

实习生只能读应用层数据，不能改；
数据分析师能读加工层和应用层，但不能读Raw层原始数据（可能包含敏感信息）；
管理员能改元数据和权限配置。

实现方式：

本地Hadoop：用Apache Ranger，创建角色（如"分析师"），分配权限（如"允许查询staging层表"），再把用户加入角色；
AWS云：用IAM策略，限制S3访问路径（如"只允许访问s3://datalake/consumption/"），结合Glue权限控制表级访问。

6.2 数据质量：“数据不能是坏的”

数据质量就像"食品保质期"——过期的食品（坏数据）吃了会生病，错误的数据会导致错误的决策。常见的数据质量问题和解决方法：

问题类型	例子	检查工具	解决方法
空值	order_id为null	Great Expectations	过滤空值或从源头修复
格式错误	order_time是"2023/13/01"（13月无效）	Spark SQL（正则表达式校验）	转换格式或标记为异常数据
逻辑矛盾	订单金额=100，但支付金额=200	自定义规则（如amount=payment_amount）	触发报警，人工核查
重复数据	同一order_id出现3条记录	Hive/Spark的dropDuplicates	按唯一键去重

Great Expectations示例：定义订单表的数据质量规则

# expectations/orders_expectations.yml
expectations:
  - expectation_type: expect_column_values_to_not_be_null
    column: order_id
  - expectation_type: expect_column_values_to_match_regex
    column: order_time
    regex: "^\\d{4}-\\d{2}-\\d{2}$"  # 日期格式YYYY-MM-DD
  - expectation_type: expect_column_values_to_be_between
    column: amount
    min_value: 0  # 金额不能为负

运行检查：

great_expectations checkpoint run orders_checkpoint

如果失败，会生成报告并报警，提示哪些数据不符合规则。

6.3 数据安全：“敏感数据要藏好”

用户手机号、身份证号、银行卡号等敏感数据，必须"加密或脱敏"，就像快递单上的手机号会打码。

脱敏方法：

静态脱敏：存储时就脱敏，比如把手机号13812345678存为138****5678；
动态脱敏：查询时才脱敏，管理员查看到完整手机号，普通用户看到脱敏后的数据。

实现工具：

Hive：用Masking函数，mask(phone, '****', 3, 7)（从第3位到第7位替换为*）；
AWS Redshift：开启动态数据屏蔽（DDM），定义脱敏规则。

步骤七：监控与运维——让数据湖"健康运行"

数据湖部署完成后，不能"一劳永逸"，就像汽车需要定期保养，数据湖也需要监控和运维，及时发现和解决问题。

7.1 监控指标：关注"数据湖的心跳"

监控维度	核心指标	阈值	工具
存储监控	存储空间使用率、增长速度	使用率>80%报警；单日增长>1TB报警	Prometheus+Grafana（本地）、CloudWatch（AWS）
计算监控	Spark任务成功率、运行时间	成功率<95%报警；运行时间>2小时报警	Spark History Server、Airflow（任务调度工具）
数据监控	数据接入延迟、数据量波动	延迟>1小时报警；数据量波动>50%报警	自定义脚本（对比今日与昨日数据量）
元数据监控	元数据完整性（字段缺失率）	缺失率>5%报警	Atlas API（检查元数据字段）

7.2 日常运维：做好"数据湖的保洁"

数据归档：Raw层超过1年的冷数据，迁移到低成本存储（如S3 Glacier），节省50%+存储成本；
元数据清理：删除过期表的元数据（如已下线业务的表），避免元数据平台臃肿；
权限审计：每月检查权限配置，回收离职员工的权限，防止数据泄露；
故障演练：定期模拟存储故障（如HDFS节点宕机），测试数据恢复流程是否有效。

项目实战：从零搭建一个电商数据湖（基于AWS云平台）

为了让你更直观地理解数据湖部署，我们以"电商公司数据湖"为例，手把手带你完成从环境搭建到数据应用的全流程。

实战目标

搭建一个能支持"用户消费分析"的迷你数据湖，实现：

接入MySQL订单数据和用户行为日志；
清洗并加工数据，计算"用户月均消费"和"热门商品"；
用Tableau可视化分析结果，供业务决策。

开发环境准备

AWS账号：需要管理员权限（创建S3、Glue、EMR等服务）；
本地工具：AWS CLI（命令行操作AWS）、Tableau Desktop（可视化）、Python 3.8（写清洗脚本）。

步骤1：创建S3存储桶（数据湖存储层）

登录AWS控制台，进入S3服务，点击"创建存储桶"；
配置存储桶名称（如"ecommerce-datalake-2023"），选择区域（如"us-east-1"）；
开启"版本控制"（防止数据误删），关闭"公共访问"（安全第一）；

创建分层目录（按前面讲的四层分层）：

s3://ecommerce-datalake-2023/
├── raw/              # 原始数据
│   ├── mysql/        # MySQL数据（订单表、用户表）
│   └── logs/         # 用户行为日志
├── staging/          # 清洗后数据
├── processed/        # 加工后数据
└── consumption/      # 应用层数据

步骤2：配置Glue（元数据管理和数据爬取）

创建Glue数据库：进入Glue控制台 → “数据库” → “添加数据库”，命名为"ecommerce_datalake"；
创建Crawler爬取Raw层数据：
- “添加爬虫” → 名称"raw-mysql-crawler"；
- 数据源：选择"S3"，路径"s3://ecommerce-datalake-2023/raw/mysql/"；
- 目标数据库：“ecommerce_datalake”；
- 爬取频率：“每天”；
- 运行爬虫：爬取完成后，在Glue Data Catalog中会生成表（如"orders"、“users”）；
同理，创建爬取"raw/logs/"的Crawler，获取日志数据的元数据。

步骤3：部署EMR集群（计算引擎）

进入EMR控制台，点击"创建集群"；
集群配置：
- 名称：“ecommerce-datalake-cluster”；
- 应用程序：勾选"Spark"、“Hive”（Spark用于数据处理，Hive用于元数据访问）；
- 实例类型：m5.xlarge（4核16GB，测试用足够），2个核心节点；
- 权限：创建IAM角色，允许EMR访问S3和Glue；
启动集群（约5分钟），集群就绪后，通过"SSH连接"登录主节点。

步骤4：数据接入与清洗（用PySpark）

4.1 接入MySQL订单数据到Raw层

假设MySQL数据库在AWS RDS上，用Sqoop导出数据到S3 Raw层：

# 在EMR主节点安装Sqoop
sudo yum install -y sqoop

# 导出orders表到S3
sqoop import \
  --connect jdbc:mysql://rds-mysql-host:3306/ecommerce \
  --username admin \
  --password mysql-password \
  --table orders \
  --target-dir s3://ecommerce-datalake-2023/raw/mysql/orders/$(date +%Y-%m-%d) \
  --as-textfile

4.2 清洗数据到Staging层（PySpark脚本）

创建clean_orders.py脚本，上传到EMR主节点：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, to_date

spark = SparkSession.builder.appName("orders-cleaning").enableHiveSupport().getOrCreate()

# 读取Raw层数据（S3路径）
raw_orders = spark.read.csv(
  "s3://ecommerce-datalake-2023/raw/mysql/orders/2023-10-01",
  header=True,
  inferSchema=True
)

# 清洗步骤：
# 1. 去重（按order_id）
# 2. 过滤空值（order_id、user_id、amount不为空）
# 3. 转换order_time为日期类型
cleaned_orders = raw_orders \
  .dropDuplicates(["order_id"]) \
  .filter(
    col("order_id").isNotNull() & 
    col("user_id").isNotNull() & 
    col("amount").isNotNull()
  ) \
  .withColumn("order_date", to_date(col("order_time"), "yyyy-MM-dd"))

# 写入Staging层（Parquet格式，按order_date分区）
cleaned_orders.write.partitionBy("order_date").parquet(
  "s3://ecommerce-datalake-2023/staging/mysql/orders/",
  mode="overwrite"
)

# 注册到

你可能感兴趣的:(掌握大数据领域数据湖的部署要点)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
男士护肤品哪个牌子好？十大男士护肤品排行榜高省APP珊珊
很多男生意识到护肤的必要性，开始着手护肤，但不知道该选哪个男士护肤品品牌使用好。目前市面上很多男士护肤品品牌，可谓琳琅满目，让人眼花缭乱。男士挑选护肤品时，根据自己皮肤需求去正规渠道挑选合适的知名护肤品比较放心靠谱。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入
三菱PLC全套学习资料及应用手册 good2know
本文还有配套的精品资源，点击获取简介：三菱PLC作为工业自动化领域的核心设备，其系列产品的学习和应用需要全面深入的知识。本次资料包为学习者提供从基础到进阶的全方位学习资源，包括各种型号PLC的操作手册、编程指南、软件操作教程以及实际案例分析，旨在帮助用户系统掌握PLC的编程语言、指令系统及在各类工业应用中的实施。1.三菱PLC基础知识入门1.1PLC的基本概念可编程逻辑控制器（PLC）是工业自动化
2022-10-20 体力劳动者
不因感觉稍纵即逝就不加记录。在女儿睡觉后我记下今天的小故事。接手新班级后，今天是第二次收到家长的感谢信（微信）。是我表扬次数最多的两位学生家长致来的感谢，他们明显感受到孩子自信、阳光了不少，写作业由被动变为了主动，家庭氛围也由鸡飞狗跳变成了其乐融融。在被顽皮的学生气得头晕之后，我感到了久违的价值感，责任感甚至使命感，我回复家长这样一句话：我们也需要家长的反馈好让我们的教育工作更有劲头。我也认识到，
程翔授《评价一篇记叙文》行吟斯基
桂林十一中高一2中学生自读程老师学生文章板书课题师巡看。看完举手。问：它是记叙文。不商量。独立打分。学生评价打分。师：高低都正常，不受干扰。师巡，略评。打完举手。调查：分层次举手——高分先举手。最低分。最高95分。最低45分。女：差距太大！师：同一篇，相差55分。若是你的文章，愿落谁手？男：身临其境感觉。师：你有此经历？没也没关系。女：不优美……，结尾无升华……无感悟……师：辞藻不美？(师追问)男
《玉骨遥》：大司命为什么不杀朱颜？原因没那么简单 windy天意晚晴
《玉骨遥》里，朱颜就是时影的命劫之人。重明与时影早就知道，他们一直瞒着大司命，如今大司命也知道了真相。可是大司命却没有杀朱颜，而是给朱颜下了诛心咒，还说时影的命劫已经破了，真的如此吗？1、计划总是赶不上变化的大司命从目前剧情来说，大司命还不如时影，他信心十足的事情总会有纰漏。他不让时影见命劫之女，结果时影还是遇上了。他想让时影走火入魔，一心复仇，结果时影在朱颜的劝说下放下了仇恨。大司命让时影开山收
移动端城市区县二级联动选择功能实现包 good2know
本文还有配套的精品资源，点击获取简介：本项目是一套为移动端设计的jQuery实现方案，用于简化用户在选择城市和区县时的流程。它包括所有必需文件：HTML、JavaScript、CSS及图片资源。通过动态更新下拉菜单选项，实现城市到区县的联动效果，支持数据异步加载。开发者可以轻松集成此功能到移动网站或应用，并可基于需求进行扩展和优化。1.jQuery移动端解决方案概述jQuery技术简介jQuery
日更006 终极训练营day3 懒cici
人生创业课（2）今天的主题：学习方法一：遇到有用的书，反复读，然后结合自身实际，列践行清单，不要再写读书笔记思考这本书与我有什么关系，我在哪些地方能用到，之后我该怎么用方法二：读完书没映像怎么办?训练你的大脑，方法：每读完一遍书，立马合上书，做一场分享，几分钟都行对自己的学习要求太低，要逼自己方法三：学习深度不够怎么办？找到细分领域的榜样，把他们的文章、书籍、产品都体验一遍，成为他们的超级用户，向
自律打卡第四天：比昨天进步一点点花儿的念想
今天新闻我们县城又确诊了一例，截止目前已经确诊的三例了，打开，看了一篇简友写的武汉的真实情况，有病住不了院，还没等到床位已经去世的消息，心里更加的难受，武汉尚且这样，如果是我们这没有高速没有火车的十八线的小县城发生这种情况，那情况将是更加的不堪设想，不敢想，唯有祈求灾难早点快去，平安才是最大的福气。突然觉得我的自律打卡，比昨天进步一点点。更希望疫情战争每一天都要比昨天好一点，希望一觉醒来听到的是好
15个小技巧，让我的Windows电脑更好用了！曹元_
01.桌面及文档处理第一部分的技巧，主要是围绕桌面的一些基本操作，包括主题设置、常用文档文件快捷打开的多种方式等等。主题换色默认情况下，我们的Win界面可能就是白色的文档界面，天蓝色的图表背景，说不出哪里不好看，但是就是觉得不够高级。imageimage说到高级感，本能第一反应就会和暗色模式联想起来，如果我们将整个界面换成黑夜模式的话，它会是这样的。imageimage更改主题颜色及暗色模式，我们
（二）SAP Group Reporting (GR) 核心子模块功能及数据流向架构解析
数据如何从子公司流转到合并报表的全过程，即数据采集→合并引擎→报表输出，特别是HANA内存计算如何优化传统ETL瓶颈。SAPGroupReporting(GR)核心模块功能及数据流向的架构解析，涵盖核心组件、数据处理流程和关键集成点，适用于S/4HANA1809+版本：一、核心功能模块概览模块功能关键事务码/FioriApp数据采集(DataCollection)整合子公司财务数据（SAP/非SA
9、汇编语言编程入门：从环境搭建到简单程序实现神经网络酱汇编语言 MEPIS GNU工具链
汇编语言编程入门：从环境搭建到简单程序实现1.数据存储介质问题解决在处理数据存储时，若要使用MEPIS系统，需确保有其可访问的存储介质。目前，MEPIS无法向采用NTFS格式（常用于Windows2000和XP工作站）的硬盘写入数据。不过，若硬盘采用FAT32格式，MEPIS就能进行写入操作。此外，MEPIS还能将文件写入软盘和大多数USB闪存驱动器。若工作站连接到局域网，还可通过FTP协议或挂载
月光下的罪恶（5）允歌玖沐
5.被孤立顾纨是转校过来的，进入学校后，回头率很高“诶诶诶，你看那女生，哪个系的？”“不知道没见过。”“看那样，一看就是个胆小的货。”顾纨当做没听到，更狠的话她都听过，更何况女生们耍心眼？“他爸爸是做黑生意的，估计女儿也不是什么好的，你以后离他一家子远点。”她走向自己要上课的教室，一进门，所有人的目光看向她，顾纨若无其事的走进教室，开始上课。下课，一群人站起来，但是很显然，她周围的一圈人都不愿意和
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
贝多芬诞辰250周年纪念万千星河赴远方
就算不是古典音乐爱好者，你也一定听说过贝多芬。作为古典音乐史上最伟大的音乐家之一，他不仅是古典主义风格的集大成者，同时也是浪漫主义风格的开创者。贝多芬肖像画（1813年）贝多芬的一生共创作了9部交响曲、36首钢琴奏鸣曲、10部小提琴奏鸣曲、16首弦乐四重奏、1部歌剧及2部弥撒曲等等。数量虽然不及前辈海顿、莫扎特多，但他几乎改造了当时所有的音乐表达形式，赋予了它们全新的价值，对后世音乐的发展产生了极
IK分词初心myp
实现简单的分词功能，智能化分词添加依赖配置：4.10.4org.apache.lucenelucene-core${lucene.version}org.apache.lucenelucene-analyzers-common${lucene.version}org.apache.lucenelucene-queryparser${lucene.version}org.apache.lucenel
三件事—小白猫·雨天·八段锦咸鱼月亮
1.最近楼下出现一只非常漂亮的粘人小白猫，看着不像是流浪猫，非常亲人。眼睛比蓝球的还大，而且是绿色的，很漂亮。第一次遇到它，它就跟我到电梯口，如果我稍微招招手，肯定就跟我进电梯了。后来我喂过它几次，好可惜不能养它，一只蓝球就是我的极限了。2.下雨天就心烦，好奇怪。明明以前我超爱看窗外的雨和听雨声，看来近来的心情不够宁静了。3.最近在练八段锦，从第一次就爱上了这个运动，很轻松缓慢，但是却出汗。感觉可
25-1-2019 树藤与海岛呢
hello八月来报道了今天看到了一篇文章就只想记下那两句话：良田千顷不过一日三餐广夏万间只睡卧榻三尺大概的意思就是要珍惜当下不要等来不及的时候才珍惜分享今天的两餐最近没有时间运动呢下个月补回好了说完了哈哈goodnight图片发自App图片发自App
《极简思维》第三部分小洋苏兮
整理你的人际关系如何改善人际关系？摘录：因为人际关系问题是人们生活中不快乐的主要原因。感想：感觉这个说的挺对，之前我总是埋头学习，不管舍友不管自己的合作伙伴的一些事情，但实际上，这学期关注了之后好多了摘录：“亲密关系与社交会让你健康而快乐。这是基础。太过于关注成就或不太关心人际关系的人都不怎么快乐。基本上来说，人类就是建立在人脉关系上的。”感想：但是如果有时想的太多就不太好，要以一个开放的心态跟别
力扣热题100-------54. 螺旋矩阵海航Java之路力扣 leetcode 矩阵 java
给你一个m行n列的矩阵matrix，请按照顺时针螺旋顺序，返回矩阵中的所有元素。示例1：输入：matrix=[[1,2,3],[4,5,6],[7,8,9]]输出：[1,2,3,6,9,8,7,4,5]示例2：输入：matrix=[[1,2,3,4],[5,6,7,8],[9,10,11,12]]输出：[1,2,3,4,8,12,11,10,9,5,6,7]提示：m==matrix.lengthn
我不懂什么是爱，但我给你全部我拥有的香尧
因为怕黑，所以愿意陪伴在夜中行走的人，给他一点点的安全感。因为渴望温柔与爱，所以愿意为别的孩子付出爱与温柔。因为曾遭受侮辱和伤害，所以不以同样的方式施于其他人。如果你向别人出之以利刃，对方还了你爱与包容，真的不要感激他，真的不要赞美他。每一个被人伤害过的人心里都留下了一颗仇恨的种子，他也会想要有一天以眼还眼，以牙还牙。但他未让那颗种子生根发芽，他用一把心剑又一次刺向他自己，用他血荐仇恨，开出一朵温
你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。霖霖z
打卡人:周云日期:2018年11月09日【日精进打卡第180天】【知～学习】《六项精进》0遍共214遍《通篇》1遍共106遍《大学》2遍共347遍《坚强工作，温柔生活》ok《不抱怨的世界》104-108页《经典名句》你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。【行～实践】一、修身：（对自己个人）1、坚持打卡二、齐家：（对家庭和家人）打扫卫生，接送孩子，洗衣做饭，陪
SpringMVC执行流程（原理），通俗易懂国服冰 SpringMVC spring mvc
SpringMVC执行流程（原理），通俗易懂一、图解SpringMVC流程二、进一步理解Springmvc的执行流程1、导入依赖2、建立展示的视图3、web.xml4、spring配置文件springmvc-servlet5、Controller6、tomcat配置7、访问的url8、视图页面一、图解SpringMVC流程图为SpringMVC的一个较完整的流程图，实线表示SpringMVC框架提
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
现在发挥你的优势爱生活的佑嘉
来和我做咨询的一些朋友，涉及到定位的，都会说，我不知道我的优势是什么，你能不能帮我看看？还有一些朋友，喜欢做各种测试来了解自己，测试过后，然并卵。今天，我想来聊聊优势，如何能了解自己的优势是什么。首先，我们要知道，如果要成为“不一般”的人，我们所做的事情，就要基于自身的优势。我做管理者十多年，看到每个员工都有不同的特长，有的擅长数字，有的擅长人际，有的擅长写作。这些知道自己优势并且在这方面刻意练习
2023-11-02 一帆f
发现浸润心田的感觉：今天一个机缘之下突然想分享我的婆媳关系，我一边分享一边回忆我之前和儿媳妇关系的微妙变化，特别是分享到我能感受到儿媳妇的各种美好，现在也能心平气和的和老公平等对话，看到自己看到老公，以己推人以人推己自然而然的换位思考，心中有一种美好的能量在涌动，一种浸润心田的感觉从心胸向全身扩散，美好极了……我很想记住这种感觉，赶紧把它写下来以留纪念，也就是当我看见他人的美好，美好的美妙的浸润心
贫穷家庭的孩子考上985以后会怎样？ Mellisa蜜思言
我出生在一个贫穷的农村家庭，据我妈说，我出生的时候才4斤多，而她生完我以后月子里就瘦到70斤。家里一直很穷，父母都是在菜市场卖菜的，家里还有几亩地种庄稼的。我很小开始就要去帮忙，暑假的生活就是帮忙去卖菜和割稻谷，那时候自己对于割稻谷这种事情有着莫名的恐惧，生怕自己长大以后还是每年都要过着割稻谷这种日子。父母因为忙于生计无暇顾及我的学习，幸好我因为看到他们这样子的生活，内心里有深深的恐惧感，驱使着我
实时数据流计算引擎Flink和Spark剖析程小舰 flink spark 数据库 kafka hadoop
在过去几年，业界的主流流计算引擎大多采用SparkStreaming，随着近两年Flink的快速发展，Flink的使用也越来越广泛。与此同时，Spark针对SparkStreaming的不足，也继而推出了新的流计算组件。本文旨在深入分析不同的流计算引擎的内在机制和功能特点，为流处理场景的选型提供参考。（DLab数据实验室w.x.公众号出品）一.SparkStreamingSparkStreamin
48. 旋转图像 - 力扣（LeetCode） Fiee-77 #数组 leetcode 算法 python 数据结构数组
题目：给定一个n×n的二维矩阵matrix表示一个图像。请你将图像顺时针旋转90度。你必须在原地旋转图像，这意味着你需要直接修改输入的二维矩阵。请不要使用另一个矩阵来旋转图像。示例1：输入：matrix=[[1,2,3],[4,5,6],[7,8,9]]输出：[[7,4,1],[8,5,2],[9,6,3]]示例2：输入：matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要

掌握大数据领域数据湖的部署要点