施小赞

12、DolphinScheduler

1、DolphinScheduler简介

1.1、 DolphinScheduler概述

Apache DolphinScheduler是一个分布式、易扩展的可视化DAG工作流任务调度平台。致力于解决数据处理流程中错综复杂的依赖关系，使调度系统在数据处理流程中开箱即用。

1.2、 DolphinScheduler核心架构

DolphinScheduler的主要角色如下：

MasterServer采用分布式无中心设计理念，MasterServer主要负责 DAG 任务切分、任务提交、任务监控，并同时监听其它MasterServer和WorkerServer的健康状态。

WorkerServer也采用分布式无中心设计理念，WorkerServer主要负责任务的执行和提供日志服务。

ZooKeeper服务，系统中的MasterServer和WorkerServer节点都通过ZooKeeper来进行集群管理和容错。

Alert服务，提供告警相关服务。

API接口层，主要负责处理前端UI层的请求。

UI系统的前端页面，提供系统的各种可视化操作界面。

2、 DolphinScheduler部署说明

2.1、软硬件环境要求

2.1.1、操作系统版本要求

操作系统	版本
Red Hat Enterprise Linux	7.0 及以上
CentOS	7.0 及以上
Oracle Enterprise Linux	7.0 及以上
Ubuntu LTS	16.04 及以上

2.1.2、服务器硬件要求

CPU	内存	硬盘类型	网络	实例数量
4核+	8 GB+	SAS	千兆网卡	1+

2.2、部署模式

DolphinScheduler支持多种部署模式，包括单机模式（Standalone）、伪集群模式（Pseudo-Cluster）、集群模式（Cluster）等。

2.2.1、单机模式

单机模式（standalone）模式下，所有服务均集中于一个StandaloneServer进程中，并且其中内置了注册中心Zookeeper和数据库H2。只需配置JDK环境，就可一键启动DolphinScheduler，快速体验其功能。

2.2.2、伪集群模式

伪集群模式（Pseudo-Cluster）是在单台机器部署 DolphinScheduler 各项服务，该模式下master、worker、api server、logger server等服务都只在同一台机器上。Zookeeper和数据库需单独安装并进行相应配置。

2.2.3、集群模式

集群模式（Cluster）与伪集群模式的区别就是在多台机器部署 DolphinScheduler各项服务，并且可以配置多个Master及多个Worker。

3、 DolphinScheduler集群模式部署

3.1 、集群规划

集群模式下，可配置多个Master及多个Worker。通常可配置2~3个Master，若干个Worker。由于集群资源有限，此处配置一个Master，三个Worker，集群规划如下。

hadoop102	master、worker
hadoop103	worker
hadoop104	worker

3.2、前置准备工作

（1）三台节点均需部署JDK（1.8+），并配置相关环境变量。

（2）需部署数据库，支持MySQL（5.7+）或者PostgreSQL（8.2.15+）。如 MySQL 则需要 JDBC Driver 8.0.16。

（3）需部署Zookeeper（3.4.6+）。

（4）如果启用 HDFS 文件系统，则需要 Hadoop（2.6+）环境。

（5）三台节点均需安装进程管理工具包psmisc。

[shuidi@hadoop102 ~]$ sudo yum install -y psmisc
[shuidi@hadoop103 ~]$ sudo yum install -y psmisc
[shuidi@hadoop104 ~]$ sudo yum install -y psmisc

3.3、解压DolphinScheduler安装包

（1）上传DolphinScheduler安装包到hadoop102节点的/opt/software目录

（2）解压安装包到当前目录

[shuidi@hadoop102 software]$ tar -zxvf apache-dolphinscheduler-2.0.5-bin.tar.gz

3.4 、创建元数据库及用户

DolphinScheduler 元数据存储在关系型数据库中，故需创建相应的数据库和用户。

（1）创建数据库

mysql> CREATE DATABASE dolphinscheduler DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;

（2）创建用户

mysql> CREATE USER 'dolphinscheduler'@'%' IDENTIFIED BY 'Zan_123456';

注：

若出现以下错误信息，表明新建用户的密码过于简单。

ERROR 1819 (HY000): Your password does not satisfy the current policy requirements

可提高密码复杂度或者执行以下命令降低 MySQL 密码强度级别。

mysql> set global validate_password_policy=0;
mysql> set global validate_password_length=4;

（3）赋予用户相应权限

mysql> GRANT ALL PRIVILEGES ON dolphinscheduler.* TO 'dolphinscheduler'@'%';
mysql> flush privileges;

3.5、配置一键部署脚本

修改解压目录下的 conf/config 目录下的 install_config.conf 文件。

[shuidi@hadoop102 config]$ vim install_config.conf

修改内容如下。

ips="hadoop102,hadoop103,hadoop104" 
# 将要部署任一 DolphinScheduler 服务的服务器主机名或 ip 列表

masters="hadoop102" 
# master 所在主机名列表，必须是 ips 的子集

workers="hadoop102:default,hadoop103:default,hadoop104:default" 
# worker 主机名及队列，此处的 ip 必须在 ips 列表中

alertServer="hadoop102" 
# 告警服务所在服务器主机名

apiServers="hadoop102" 
# api 服务所在服务器主机名

# pythonGatewayServers="ds1"
# 不需要的配置项，可以保留默认值，也可以用 # 注释

installPath="/opt/module/dolphinscheduler" 
# DS 安装路径，如果不存在会创建

deployUser="shuidi" 
# 部署用户，任务执行服务是以 sudo -u {linux-user} 切换不同 Linux 用户的方式来实现多租户运行作业，因此该用户必须有免密的 sudo 权限。

dataBasedirPath="/opt/module/dolphinscheduler/data"
# 前文配置的所有节点的本地数据存储路径，需要确保部署用户拥有该目录的读写权限

javaHome="/usr/local/jdk1.8.0_191" 
# JAVA_HOME 路径

# 注意：数据库相关配置的 value 必须加引号，否则配置无法生效
DATABASE_TYPE="mysql" 
# 数据库类型

SPRING_DATASOURCE_URL="jdbc:mysql://hadoop102:3306/dolphinscheduler?useUnicode=true&characterEncoding=UTF-8" 
# 数据库 URL

SPRING_DATASOURCE_USERNAME="dolphinscheduler" 
# 数据库用户名

SPRING_DATASOURCE_PASSWORD="Zan_123456" 
# 数据库密码

registryPluginName="zookeeper"
# 注册中心插件名称，DS 通过注册中心来确保集群配置的一致性

registryServers="hadoop102:2181,hadoop103:2181,hadoop104:2181" 
# 注册中心地址，即 Zookeeper 集群的地址

registryNamespace="dolphinscheduler"
# DS 在 Zookeeper 的结点名称

resourceStorageType="HDFS"
# 资源存储类型

resourceUploadPath="/dolphinscheduler"
# 资源上传路径

defaultFS="hdfs://hadoop102:8020"
# 默认文件系统

resourceManagerHttpAddressPort="8088"
# yarn RM http 访问端口

yarnHaIps= 
# Yarn RM 高可用 ip，若未启用 RM 高可用，则将该值置空

singleYarnIp="hadoop103" 
# Yarn RM 主机名，若启用了 HA 或未启用 RM，保留默认值

hdfsRootUser="shuidi" 
# 拥有 HDFS 根目录操作权限的用户

3.6 、初始化数据库

（1）拷贝 MySQL 驱动到 DolphinScheduler 的解压目录下的 lib 中，要求使用 MySQL JDBC Driver 8.0.16。

[shuidi@hadoop102 apache-dolphinscheduler-2.0.5-bin]$ cp /opt/software/mysql-connector-java-8.0.16.jar lib/

（2）执行数据库初始化脚本

数据库初始化脚本位于 DolphinScheduler 解压目录下的 script 目录中，即 /opt/software/ds/apache-dolphinscheduler-2.0.5-bin/script/。

[shuidi@hadoop102 apache-dolphinscheduler-2.0.5-bin]$ script/create-dolphinscheduler.sh

3.7、一键部署 DolphinScheduler

（1）启动 Zookeeper 集群

[shuidi@hadoop102 bin]$  zk.sh start

（2）一键部署并启动 DolphinScheduler

[shuidi@hadoop102 apache-dolphinscheduler-2.0.5-bin]$  ./install.sh

（3）查看 DolphinScheduler 进程

（4）访问 DolphinScheduler UI

DolphinScheduler UI 地址为 http://hadoop102:12345/dolphinscheduler

初始用户的用户名为：admin，密码为 dolphinscheduler123

3.8 、DolphinScheduler 启停命令

1）一键启停所有服务

./bin/start-all.sh
./bin/stop-all.sh

注意同 Hadoop 的启停脚本进行区分。

2）启停 Master

./bin/dolphinscheduler-daemon.sh start master-server
./bin/dolphinscheduler-daemon.sh stop master-server

3）启停 Worker

./bin/dolphinscheduler-daemon.sh start worker-server
./bin/dolphinscheduler-daemon.sh stop worker-server

4）启停 Api

./bin/dolphinscheduler-daemon.sh start api-server
./bin/dolphinscheduler-daemon.sh stop api-server

5）启停 Logger

./bin/dolphinscheduler-daemon.sh start logger-server
./bin/dolphinscheduler-daemon.sh stop logger-server

6）启停 Alert

./bin/dolphinscheduler-daemon.sh start alert-server
./bin/dolphinscheduler-daemon.sh stop alert-server

4 、 DolphinScheduler 入门

4.1 、安全中心配置

安全中心主要有租户管理、用户管理、告警组管理、告警实例管理、Worker 分组管理、Yarn 队列管理、环境管理、令牌管理等功能。

4.1.1、 Yarn 队列管理

队列是在执行 spark、mapreduce 等程序，需要用到“队列”参数时使用的。

此处的队列对应的是 Yarn 调度器的资源队列。故队列概念只对跑在 Yarn 上的任务类型有效。此处创建出的队列，可供后续任务进行选择。需要注意的是，在 DolphinScheduler 中

创建队列，并不会影响到 Yarn 调度器的队列配置。

此处可不创建队列。

注：

➢ 名称：DS 执行任务时可以选择的队列名称。

➢ 队列值：与名称相对应的 Yarn 调度队列的名称。

4.1.2 、租户管理

租户对应的是 Linux 的用户，用于 worker 提交作业所使用的用户。如果 linux 没有这个用户，默认情况下会导致任务运行失败。可以通过修改 worker.properties 配置文件中参数

worker.tenant.auto.create=true（默认值为 false）实现当 linux 用户不存在时自动创建该用户。

worker.tenant.auto.create=true 参数会要求 worker 可以免密运行 sudo 命令。

此处创建一个 shuidi 租户，如下图。

注：

➢ 租户编码：租户编码是 Linux 上的用户，唯一，不能重复。

➢ 队列：该租户提交 Yarn 任务时的默认队列。

4.1.3 、用户管理

用户对应的是 DolphinScheduler 的用户，用于登录 DolphinScheduler。用户分管理员用户和普通用户。

管理员有授权和用户管理等权限，没有创建项目和工作流定义的操作的权限。

普通用户可以创建项目和对工作流定义的创建，编辑，执行等操作。

此处创建一个普通用户 shuidi，如下图。 shuidi Zan123456

注：

➢ 用户名：登录DolphinScheduler 账户

➢ 租户：该用户关联的租户

➢ 队列：默认为租户所关联的队列。

➢ 邮件、手机号：主要用于告警通知。

4.1.4 、告警实例管理与告警组管理

告警实例与告警组用于任务运行成功或者失败之后的告警通知。一个告警组可包含多个告警实例，一个告警实例，需选择一个告警插件，并配置相应参数，目前支持的告警插件有

电子邮件、钉钉、企业微信、飞书等。

此处暂不配置。

4.1.5、 Worker 分组管理

一个 Worker 分组由多个 Worker 组成。在任务执行时，可以将任务分配给指定 Worker组，由该组中的 Worker 节点执行该任务。每个 Worker 至少属于一个组，默认为 default 组。

Worker 所属分组可以调整，调整方式如下：

1）方式一

打开要设置分组的 Worker 节点上的 worker.properties 配置文件，修改 worker.groups 参数，worker.groups 参数的值为该 Worker 节点对应的分组名称,默认为 default，如果该 worker

节点属于多个分组，则多个分组名称以逗号隔开。

示例:

worker.groups=default,test

2）方式二

在 Web UI 的安全中心的 Workder 分组管理中修改，如下图所示。

此处可不做配置。

4.1.6、环境管理

此处可配置 Worker 运行环境（任务运行时所需的环境变量），默认的运行环境由 Worker节点中，dolphinscheduler 安装目录下的 conf/env/dolphinscheduler_env.sh 决定。

创建环境的操作如下图所示，环境创建完毕之后，就可供 Worker 运行任务时选择。

注：

➢ 环境名称：用户自定义名称。

➢ 环境配置：与 dolphinscheduler_env.sh 配置格式相同。

➢ 详细描述：环境的详细描述，不能为空，否则无法创建

➢ Worker 组：环境所属的 Worker 组。

此处暂不做配置。

4.1.7 、令牌管理

令牌用于通过接口访问 DolphinScheduler 各项服务时的用户验证。普通用户通过 UI 页面访问各项服务时，无需使用令牌。若需将 DolphinScheduler 与第三方服务进行集成，则需

调用其接口，此时需使用令牌。

4.2 、项目管理

4.2.1、切换用户

默认不使用管理员用户操作项目和工作流等，故需先切换到普通用户 shuidi。

1）admin 用户退出

2）使用 shuidi 用户登录

4.2.2、创建项目

4.2.3、查看项目

4.3 、工作流基础配置

下图为工作流配置页面，共包含三个模快，分别为工作流定义、工作流实例和任务实例。

工作流定义：用于定义工作流，包括工作流各节点任务详情及各节点依赖关系等。

工作流实例：工作流每执行一次就会生成一个工作流实例。此处可查看正在运行的工作流以及已经完成的工作流。

任务实例：工作流中的一个节点任务，每执行一次就会生成一个任务实例。此处可用于查看正在执行的节点任务以及已经完成的节点任务。

4.3.1 、工作流定义

工作流要求：工作流需包含三个 Shell 类型的任务节点，分别是 A，B，C。三个任务的

依赖关系如下图所示：

1）创建工作流

2）配置任务节点

（1）节点 A

（2）节点 B

（3）节点 C

3）配置任务节点的依赖关系

配置依赖的关系的方式如下两种：

（1）直接对 DAG 图进行拖拽操作

4）保存工作流定义

4.3.2 、执行工作流

1）上线工作流

工作流须上线之后才能执行。处于上线状态的工作流定义不可修改，如需修改，须先下线。

2）单次运行工作流

3）定时执行工作流

（1）点击定时

（2）配置定时规则

此处示例为每分钟执行一次

（3）定时管理

（4）定时上线

4.3.3 、查看工作流实例

1）查看所有工作流实例

2）查看工作流执行状态

4.3.4 、查看任务实例

1）查看所有任务实例

2）查看任务实例日志

第 5 章、 DolphinScheduler 进阶

5.1 、工作流传参

5.1.1、本地参数和全局参数

DolphinScheduler 支持对任务节点进行灵活的传参，任务节点可通过${参数名}引用参数值。

1）本地参数

本地参数是指只针对单个任务节点有效的参数。

（1）修改 helloworld 工作流 Node-A 节点如下

➢ dt：参数名

➢ IN/OUT：IN 表示向当前节点传参，OUT 表示向下游节点传参

➢ VARCHAR：参数值类型

➢ 2020-06-14：参数值

（2）保存工作流并运行，查看 Node-A 输出日志。

2）全局参数

全局参数是指针对整个工作流的所有任务节点都有效的参数。

（1）修改 helloworld 工作流每个任务节点如下

节点 A 配置

节点 B 配置

节点 C 配置

（2）保存工作流，并设置全局参数

（3）执行工作流，查看三个任务节点输出日志。

5.1.2 、参数传递

DolphinScheduler 支持上游任务节点向下游任务节点传参。目前支持这个特性的任务类型有：Shell、SQL、Procedure。以下案例使用 Shell 类型的任务节点进行演示。

1）设置上游节点 Node-A

注：echo '${setValue(key=value)}'为固定写法

2）设置下游节点 Node-C

3）查看输出日志

可以看到对应节点日志中输出了其调用参数的值。

5.1.3、参数优先级

一个任务节点引用的参数可能来自三种类型：分别是全局参数、上游任务传递的参数、本地参数。因为参数的值存在多个来源，当参数名相同时，就需要考虑参数优先级的问题。

DolphinScheduler 参数的优先级从低到高为：全局参数上游任务传递的参数本地参数。

在上游任务传递的参数的情况下，由于上游可能存在多个任务向下游传递参数。当上游传递的参数名称相同时：

下游节点会优先使用值为非空的参数。

如果存在多个值为非空的参数，则按照上游任务的完成时间排序，选择完成时间最早的上游任务对应的参数。

5.1.4 、内置参数

DolphinScheduler 提供了一些时间相关的系统参数，方便定时调度使用。

1）基础内置参数

变量名	参数	说明
system.biz.date	${system.biz.date}	定时时间前一天，格式为 yyyyMMdd
system.biz.curdate	${system.biz.curdate}	定时时间，格式为 yyyyMMdd
system.datetime	${system.datetime}	定时时间，格式为 yyyyMMddHHmmss

2）衍生内置参数

可通过衍生内置参数，设置任意格式、任意时间的日期。

（1）自定义日期格式

可以对 $[yyyyMMddHHmmss] 任意分解组合，如 $[yyyyMMdd], $[HHmmss], $[yyyy-MM-dd]。

（2）使用 add_months() 函数

该函数用于加减月份，第一个入口参数为[yyyyMMdd]，表示返回时间的格式第二个入口参数为月份偏移量，表示加减多少个月。

参数	说明
$[add_months(yyyyMMdd,12*N)]	后 N 年
$[add_months(yyyyMMdd,-12*N)]	前 N 年
$[add_months(yyyyMMdd,N)]	后 N 月
$[add_months(yyyyMMdd,-N)]	前 N 月

（3）直接加减数字

在自定义格式后直接“+/-”数字，单位为“天”。

参数	说明
$[yyyyMMdd+7*N]	后 N 周
$[yyyyMMdd-7*N]	前 N 周
$[yyyyMMdd+N]	后 N 天
$[yyyyMMdd-N]	前 N 天
$[HHmmss+N/24]	后 N 小时
$[HHmmss-N/24]	前 N 小时
$[HHmmss+N/24/60]	后 N 分钟
$[HHmmss-N/24/60]	前 N 分钟

3）配置示例

若执行的脚本需要一个格式为 yyyy-MM-dd 的前一天日期的参数，进行如下配置即可。

运行结果：

5.2、引用依赖资源

有些任务需要引用一些额外的资源，例如 MR、Spark 等任务须引用 jar 包，Shell 任务需要引用其他脚本等。DolphinScheduler 提供了资源中心来对这些资源进行统一管理。资源

中心存储系统可选择本地文件系统或者 HDFS 等。资源中心除了提供文件资源管理功能，还提供了 Hive 自定义函数管理的功能。

下面以 Shell 任务为例，演示如何引用资源中心的其他脚本。

1）在资源中心创建脚本

2）配置 Shell 任务引用脚本

修改工作流节点 Node-A，引用上述脚本

3）保存工作流并执行，查看对应节点输出日志。

5.3 、告警通知

Dolphinscheduler 支持多种告警媒介，此处以电子邮件为例进行演示。

1）准备邮箱

如需使用 DolphinScheduler 的电子邮件告警通知功能，需要准备一个电子邮箱账号，并启用 SMTP 服务。此处以 QQ 邮箱为例。

（1）开启 SMTP 服务

拖动进度条在页面下方找到下图所示内容，开启 POP3/SMTP | IMAP/SMTP 任一服务即可

（2）获得授权码

POP3/IMAP/SMTP/Exchange/CardDAV 服务已开启在第三方客户端登录时，密码框请输入以下授权码：fljsjvglndrgbjbg

2）DolphinScheduler 配置

（1）切换管理员用户

（2）创建告警实例

第一步：点击创建告警实例

第二步：编辑告警实例

（3）创建告警组

第一步：点击创建告警组

第二步：编辑告警组

3）测试告警通知

（1）切换普通用户

（2）执行工作流测试

（3）等待接受邮件

5.4、工作流失败重跑

若工作流执行到一半失败了，需要重新启动工作流。重新启动时可选择从起点开始执行，也可选择从断点开始执行。

1）模拟失败场景

（1）修改 Node-A 配置如下

（2）修改资源中心的 test.sh 文件如下

2）运行工作流

3）查看工作流实例

4）工作失败重跑

（1）从起点开始

（2）从断点开始

你可能感兴趣的:(数仓架构搭建,数据仓库)

数据仓库——事务、快照和累积快照事实表墨染丶eye 背诵数据仓库数据库
事务、快照和累积快照事务事实表跟踪定义业务过程的个体行为，并且支持几种描述这种行为事实。可以提供丰富的分析型能力，时常充当原子数据的粒度化仓库快照事实表周期性地采样状态度量，这些度量与一系列事务的累积效果相当，但是这些事务的格式不易进行研累积快照事实表用来跟踪通过一系列处理步骤的个体项的进展情况，用于研究多数过程中里程碑或者事件的经过时间。这种事实表在单一行中关联多个不同的行为。事务事实表事务事实
某项目公司-——ETL工程师岗位——二面劝学-大数据个人面试真题记录 etl工程师数据仓库
1.自我介绍2.如果给你一个数仓项目，你应该从那些方面向你的上级汇报。3.对自己的未来职业生涯规划。4.平常下班之后做那哪些事情。5.对于写PPT,写文档这块是否可以。6.遇到工作中的压力，该如何处理。7.你曾经是做什么的。为什么想着向互联网这块发展。8.你有什么要问的？整个面试过程，面试官主要考察面试者自己的自学能力，然后做事的态度。以及做事的态度，解决问题的能力。还有就是，以后不说自己是酒店服
服务器虚拟化和云平台,云平台和服务器虚拟化区别木子Hui 服务器虚拟化和云平台
云平台和服务器虚拟化区别内容精选换一换云硬盘(ElasticVolumeService,EVS)可以为云服务器提供高可靠、高性能、规格丰富并且可弹性扩展的块存储服务，可满足不同场景的业务需求，适用于分布式文件系统、开发测试、数据仓库以及高性能计算等场景。云服务器包括弹性云服务器和裸金属服务器。云硬盘类似PC中的硬盘，需要挂载至云服务器使用，无法单独使用。您可以对已挂载的用户可以为虚拟IP地址绑定一
大数据开发（Hive面试真题-卷二） Key-Key 大数据 hive 面试
大数据开发（Hive面试真题）1、举几个Hive开窗函数例子？什么要有开窗函数，和聚集函数区别？2、说下Hive是什么？跟数据仓库区别？3、Hive架构？4、Hive数据倾斜以及解决方案？5、Hive如果不用参数调优，在map和reduce端应该做什么？6、Hive的三种自定义函数是什么？实现步骤与流程？它们之间的区别？作用是什么？7、Hive分区和分桶的区别？8、Hive的执行流程？9、Hive
数据挖掘-数据预处理的必要性及主要任务嘣嘣嚓数据挖掘数据仓库数据库数据分析人工智能
数据预处理的必要性及主要任务1、数据预处理的必要性数据库极易受噪声、缺失值和不一致数据的侵扰，因为数据库太大，并且多半来自多个异构数据源。低质量的数据导致低质量的数据挖掘。2、数据预处理技术(1)数据清理：可以用来清除数据中的噪声，纠正不一致。(2)数据集成：将数据由多个数据源合并成一个一致的数据存储，如数据仓库。(3)数据归约：可以通过如狙击、删除冗余特征或聚类来降低数据的规模。(4)数据变换：
MySQL建表以及excel内容导入 jameszjd mysql excel oracle
最近自学MySQL的使用，需要将整理好的excel数据导入数据库中，记录一下数据导入流程。--建立数据库createtableSP_sjk(--增加列idNUMBER(20),mcVARCHAR2(300))/*表空间储存参数配置。一个数据库从逻辑上来说是由一个或多个表空间所组成，表空间是数据库中物理编组的数据仓库。每一个表空间是由段所组成，一个表空间存放一个或多个数据库的物理文件。一个数据库中的
数据仓库的设计开发应用（三） Francek Chen 数据仓库与数据挖掘数据仓库大数据数据仓库设计数据库开发
目录五、数据仓库的实施（一）数据仓库的创建（二）数据抽取转换加载六、数据仓库系统的开发（一）开发任务（二）开发方法（三）系统测试七、数据仓库系统的应用（一）用户培训（二）决策支持（三）维护评估五、数据仓库的实施数据仓库实施时期的任务包括DW创建、数据抽取、数据转换和数据装载等四个阶段。（一）数据仓库的创建根据逻辑设计阶段的结果，创建一个数据库文件，并在其中创建事实表、维度表以及详细类别表
03hive数仓安装与基础使用 daydayup9527 hadoop_hive 运维 hadoop
hiveHive概述Hive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件映射为一张表，并提供完整的sql查询功能，本质上还是一个文件底层是将sql语句转换为MapReduce任务进行运行本质上是一种大数据离线分析工具学习成本相当低，不用开发复杂的mapreduce应用，十分适合数据仓库的统计分析hive可以用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在hadoop
Spark从入门到精通29:Spark SQL：工作原理剖析以及性能优化勇于自信
SparkSQL工作原理剖析1.编写SQL语句只要是在数据库类型的技术里面，例如MySQL、Oracle等，包括现在大数据领域的数据仓库，例如Hive。它的基本的SQL执行的模型，都是类似的，首先都是要生成一条SQL语句执行计划。执行计划即从哪里查询，在哪个文件，从文件中查询哪些数据，此外，复杂的SQL还包括查询时是否对表中的数据进行过滤和筛选等等。2.UnresolvedLogicalPlan未
ETL策略朱先生_hfm etl 数据仓库
数据仓库平台，ETL是很重要一环，看ETL的发展史，最初使用表格，人工从系统下载，在excel匹配，然后加载到数据仓库平台，到后来开始出现ETL工具，大概分为两个派别，以ETL架构的datastage，informatica，以ELT为代表的ODI，再到后来的批处理方式，SQL编码方式，但是其本质还是抽取数据，处理，再加载到目标平台，常用的方式：1.初始化：当我们建立数仓平台时候，一开始会涉及到同
【数据仓库作业】第1章绪论 Francek Chen 数据仓库与数据挖掘数据仓库数据库数据挖掘
目录一、给出下列英文短语或缩写的中文名称，并简述其含义。二、简述操作型数据与分析型数据的主要区别。三、简述数据仓库的定义。四、简述数据仓库的特征。五、简述主题的定义。六、简述元数据的概念。七、简述数据挖掘的主要任务。八、简述数据挖掘的主要步骤。九、下列活动是否属于数据挖掘任务，并简述其理由。十、简述数据仓库与数据挖掘的区别。一、给出下列英文短语或缩写的中文名称，并简述其含义。1、DataBase（
让数据用起来：数据中台建设的评估与选择（第4章）小阳阳兄读书笔记产品经理数据分析大数据
4.1企业数据应用的成熟度评估企业数据应用能力成熟度可以总结为4个阶段：第一个阶段：统计分析。只有业务系统的数据库，以手工报表为主。第二个阶段：决策支持。开始构建企业级数据仓库，使用BI工具、大屏等。第三个阶段：数据驱动。加强业务与数据融合，利用大数据、机器学习、深度学习等技术进行精准营销、信用风险控制等。第四个阶段：运营优化。开始建设数据中台，快速生产定制化数据服务。企业数据应用能力成熟度可以从
Spark-sql Adaptive Execution动态调整分区数量，调整输出文件数不想起的昵称 hive spark hive 数据仓库
背景：在数仓任务中，经常要解决小文件的问题。有时间为了解决小文件问题，我们把spark.sql.shuffle.partitions这个参数调整的很小，但是随着时间的推移，数据量越来越大，当初设置的参数就不合适了，那有没有一个可以自我伸缩的参数呢？看看这个参数如何运用：我们的spark-sql版本：[hadoop@666~]$spark-sql--versionWelcometo______/__
EMR StarRocks实战——Mysql数据实时同步到SR 爱吃辣条byte #StarRocks 数仓建设大数据数据仓库
文章摘抄阿里云EMR上的StarRocks实践：《基于实时计算Flink使用CTAS&CDAS功能同步MySQL数据至StarRocks》前言CTAS可以实现单表的结构和数据同步，CDAS可以实现整库同步或者同一库中的多表结构和数据同步。下文主要介绍如何使用Flink平台和E-MapReduceStarRocks，通过CTAS&CDAS功能实现实时数仓中TP（TransactionProcessi
Hive数据仓库行转列 XueminXu 大数据 hive 行转列 str_to_map COLLECT_LIST STRUCT
查了很多资料发现网上很多文章都是转发和抄袭，有些问题。这里分享一个自己项目中使用的行转列例子，供大家参考。代码如下：SELECTmy_id,nm_cd_map['A']ASmy_cd_a,nm_cd_map['B']ASmy_cd_b,nm_cd_map['C']ASmy_cd_c,nm_num_map['A']ASmy_num_a,nm_num_map['B']ASmy_num_b,nm_num
数据仓库和数据湖的区别图灵追慕者中台数据仓库数据湖数据中台算法平台
数据仓库和数据湖是两种不同的数据存储和管理架构，它们有以下区别：1.数据结构：数据仓库采用结构化的数据模型，通常是规范化的关系型数据库，其中数据以表格形式组织，使用预定义的模式和架构。而数据湖则是一种原始、未经处理的数据存储，它可以包含结构化、半结构化和非结构化数据，数据以原始格式存储，没有强制的模式和架构。2.数据处理：数据仓库通常需要进行ETL（抽取、转换、加载）过程，将数据从不同的源系统中提
【云学院干货】数据仓库服务：在冗余海量数据中找到正确决策舒意从生
数据仓库服务：在冗余海量数据中找到正确决策目前数据仓库分析解决方案在金融，电信，零售等多个行业发展迅速，很多企业在关键决策中需要对自身海量数据进行多样化，深层次的分析。传统数据仓库在大数据时代处于劣势，用户需要自己搭建软硬件，运维维护的成本非常大，投入高周期长，而且如果数据量大，扩容的工作非常难以实现。业务数据上云，在公有云上托管成为必然趋势。科普下，什么是数据仓库(DataWarehouse)？
每天一个数据分析题（一百六十四）紫色沙数据分析题库数据分析大数据数据挖掘
关于OLAP系统，下列选项不正确的是（）A.是基于数据仓库的信息进行分析处理过程B.用户数量相对较少，其用户主要是业务决策人员与管理人员C.对响应时间要求非常高。D.基础数据来源于生产系统的操作数据，也就是说，OLAP系统的数据来源与OLTP系统。题目来源于CDA模拟题库点击此处获取答案
大数据计算技术秘史（上篇）人工智能
在之前的文章《2024年，一个大数据从业者决定……》《存储技术背后的那些事儿》中，我们粗略地回顾了大数据领域的存储技术。在解决了「数据怎么存」之后，下一步就是解决「数据怎么用」的问题。其实在大数据技术兴起之前，对于用户来讲并没有存储和计算的区分，都是用一套数据库或数据仓库的产品来解决问题。而在数据量爆炸性增长后，情况就变得不一样了。单机系统无法存储如此之多的数据，先是过渡到了分库分表这类伪分布式技
开源ETL工具 SkTj
转载：https://blog.csdn.net/juceli/article/details/81448224ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL是构建数据仓库的重要一环，用户从数据源抽取出所需的数据，经过数据清洗，最终按照预先定义好的数据仓库模型，将
ETL、ELT区别以及如何正确运用 etl数据处理
一、浅谈ETL、ELTETL与ELT的概念ETL(Extract,Transform,Load)是一种数据集成过程，通常用于将数据从一个或多个源系统抽取出来，经过清洗、转换等处理后，加载到目标数据存储中。这种方法适用于需要对数据进行加工和整合后再加载到目标系统的场景，如数据仓库构建、商业智能报表制作等。相比之下，ELT(Extract,Load,Transform)则是先将数据从源系统抽取出来，直
Databend 开源周报第 132 期数据库
Databend是一款现代云数仓。专为弹性和高效设计，为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务：https://app.databend.cn。What'sOnInDatabend探索Databend本周新进展，遇到更贴近你心意的Databend。提供对CREATE[ORREPLACE]的全面支持Databend现已提供对CREATE[ORREPLACE]语法糖的全面支持，以覆盖潜
透彻理解实时数仓的支撑技术：Upsert Kafka 和 Flink 动态表（Dynamic Table）　Laurence 大数据专题 upsert-kafka flink 动态表原理解释更新
博主历时三年精心创作的《大数据平台架构与原型实现：数据中台建设实战》一书现已由知名IT图书品牌电子工业出版社博文视点出版发行，点击《重磅推荐：建大数据平台太难了！给我发个工程原型吧！》了解图书详情，京东购书链接：https://item.jd.com/12677623.html，扫描左侧二维码进入京东手机购书页面。动态表本质上是一条流（stream），upsert-kafka映射的数据表底层存储的
BI 数据分析，数据库，Office，可视化，数据仓库阿里数据专家数据分析数据库数据仓库 excel AIGC powerpoint 数据挖掘
AIGCChatGPT职场案例AI绘画与短视频制作PowerBI商业智能68集Mysql8.054集Oracle21C142集Office2021实战应用Python数据分析实战，ETLInformatica数据仓库案例实战51集Excel2021实操100集，Excel2021函数大全80集Excel2021高级图表应用89集，Excel2021大屏可视化制作56集Excel2021实用技巧30
怎么用ETL工具实现MQ消息同步 RestCloud ETL 数据集成 MQ
怎么用ETL工具实现MQ消息同步随着企业业务的不断扩张和数据量的不断增加，消息队列（MQ）已经成为了很多企业进行异步消息传递和数据同步的首选方案。而在一些特定场景下，需要将MQ中的消息同步到数据仓库或其他存储系统中，以便进行更深入的数据分析和挖掘。这时候，ETL工具可以成为实现MQ消息同步的利器。ETL工具是一种数据抽取、转换和加载工具，其主要用于数据集成、数据转换和数据加载等操作。ETL工具可以
JVS智能BI的ETL数据集实践：数据自动化分析的秘诀 jonyleek 低代码数据库 gitee java 大数据 etl
数据集是JVS-智能BI中承载数据、使用数据、管理数据的基础，同样也是构建数据分析的基础。可以通俗地将其理解为数据库中的普通的表，它来源于智能的ETL数据加工工具，可以将数据集进行分析图表、统计报表、数字大屏、数据服务等制作。数据集管理与界面介绍在整体的数仓架构中，数据集是在线加工的标准数据形态，数据集配置的过程就似对数据进行加工、清晰、关联、建模的过程，建模完成后，可通过手动数据执行或者周期性的
ETL数据集成工具DataX、Kettle、ETLCloud特点对比 RestCloud ETL 数据集成 datax kettle
ETL数据集成工具对于数据仓库，大数据集成类应用，通常会采用ETL工具辅助完成。ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至的端的过程当前的很多应用也存在大量的ELT应用模式。常见的ETL工具或类ETL的数据集成同步工具很多，以下对开源的datax、Kettle、ETLClou
数据仓库、大数据平台、数据中台的区别 000X000 数据中台
问题导读：1、如何理解数据中台？2、数据仓库、大数据平台、数据中台都是什么？3、大数据平台硬件架构如何设计？4、数据仓库、大数据平台、数据中台架构如何理解？一、层出不穷的新名词现在各种新名词层出不穷：顶层的有数字城市、智慧地球、智慧城市、城市大脑；企业层面的有数字化转型、互联网经济，数字经济、数字平台；平台层面的有物联网，云计算，大数据，5G，人工智能，机器智能，深度学习，知识图谱；技术层面的有数
我该建数仓、大数据平台还是数据中台？看完脑子终于清醒了 zl1zl2zl3 大数据中台大数据中台
一、层出不穷的新名词现在各种新名词层出不穷：顶层的有数字城市、智慧地球、智慧城市、城市大脑；企业层面的有数字化转型、互联网经济，数字经济、数字平台；平台层面的有物联网，云计算，大数据，5G，人工智能，机器智能，深度学习，知识图谱；技术层面的有数据仓库、数据集市、大数据平台、数据湖、数据中台、业务中台、技术中台等等。总之是你方唱罢他登场，各种概念满天飞…在比拼新经济的过程中，其实比拼的是流量也就是用
大数据架构体系(数据仓库) Shaw_Bigdata 技术学习分享数据仓库大数据
1、传统大数据架构优点缺点使用场景简单，易懂，对于BI系统来说，基本思想没有发生变化，变化的仅仅是技术选型，用大数据架构替换掉BI的组件1、没有BI下如此完备的Cube架构，虽然目前有kylin，但是kylin的局限性非常明显，远远没有BI下的Cube的灵活度和稳定度，因此对业务支撑的灵活度不够，2、存在大量报表，或者复杂的钻取的场景，需要太多的手工定制化3、同时该架构依旧以批处理为主，缺乏实时的
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str