利剑 -~

hive工作中分享总结

hive分享总结

1. 数据家谱:
- 1.1.Hive 是什么？
- 1.2.数据仓库
- 1.3.Hive与传统数据库的区别
- 1.4.Hive的优缺点
- 1.5.Hive使用场景
- 1.6.Hdfs 运行机制
- 1.7.Mapreduce 运行机制
- 1.8.SQL转化成MapReduce过程
- 1.9.Hive 架构:
2.Hive交互方式
- 2.1.Hive交互shell
- 2.2.JDBC交互
- 2.3.第三种交互方式:
3.Hive 基础
- 3.1.hive 支持的基本类型
- 3.2.基本SQL语句
- 3.3.排序
- 3.4.行转列
- 3.5.列转行
- 3.6.hive 内连接外连接
- 3.7.Hive 存储格式
- - 3.7.1.行存储和列存储
  - 3.7.2.textfile 格式:
  - 3.7.3.Orc 格式
  - 3.7.4.Parquet 存储格式
- 3.8.内部表/外部表
- 3.9.hive元数据存储
- 3.10.分区:
- 3.11.分桶:
3.12 大数据应用架构
3.13 数据仓库架构
4.遇到的问题；
- 4.1.Hive sql 执行的顺序与mysql 对比：
- - 4.1.1 sql 执行顺序
- 4.2.Hive update 需要表设置
- 4.3.Hive脚本中设置变量
- 4.7批量更新
- - 4.71 批量更新语法
- 4.5 函数
- 4.6.Hive 自定义udf 函数
- 4.6.1 临时函数
- 4.6.2 永久函数
4.7.Hive 优化:
- - 4.7.1.Fetch 抓取
- 4.7.2.本地模式:
- - 4.7.3.大表join 小表 mapjoin设置
  - 4.7.4.Mapjoin
  - 4.7.5.Group by 优化
  - 4.7.6.Count(distinct) 去重统计
  - 4.7.7.笛卡尔积：
  - 4.7.8.行列过滤
  - 4.7.9.动态分区
  - 4.7.10.数据倾斜
  - - 4.7.10.1.小文件合并:
    - 4.7.10.2.复杂文件增加Map数量
    - 4.7.10.3.设置reduce的数量
    - 4.7.10.4.并行执行
    - 4.7.10.5.Hive 严格模式
    - 4.7.10.6.Jvm重用
    - 4.7.10.7.推测执行
    - 4.7.10.8.压缩见hive格式
    - 4.7.10.9.explain
5.Sqoop语句如下：
6.Hive 高级函数:
7 常见的面试题
- 7.1.Left semi join 和left join 的区别
- 7.2.数据库拉链表
- 7.3 抽取数据库中存在json数据怎么处理
- 7.4 求日环比和月环比
- 7.5 数据仓库和数据集市
8. hadoop-yarn 参数调优

很抱歉最近找房子，hive 分享一直想更新，一直被耽搁
工作中设计到数仓的建设，还有存储过程到hive 脚本的改造目前只能整理到第四章

1. 数据家谱:

关系型数据库
非关系型数据库
数据仓库

1.1.Hive 是什么？

Hive 是一个类SQL 能够操作hdfs 数据的数据仓库基础架构
Hive 是一个SQL 的解析引擎，能够将HSQL翻译MR在hadoop 中执行。
hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

总结:
Hive 是一个类SQL 能够操作hdfs 数据的数据仓库基础架构
Hive 是一个SQL 的解析引擎，能够将HSQL翻译MR在hadoop 中执行。

1.2.数据仓库

数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制，简而言之，数据仓库是用来做查询分析的数据库，基本不用来做插入，修改，删除；

1.3.Hive与传统数据库的区别

注意hive读时模式：Hive在加载数据到表中的时候不会校验.
(备注读模式
数据被加载到数据库的时候，不对其合法性进行校验，只在查询等操作的时候进行校验，特点：加载速度快，适合大数据的加载
写模式
数据被加载到数据库的时候，需对其合法性进行校验，数据库中的数据都是合法的数据，特点：加载速度慢，但是查询速度快。)
写时模式：Mysql数据库插入数据到表的时候会进行校验.
总结：Hive只适合用来做海量离线的数据统计分析，也就是数据仓库。

1.4.Hive的优缺点

优点：操作接口采用了类SQL语法，提供快速开发的能力，避免了去写MapReduce；Hive还支持用户自定义函数，用户可以根据自己的需求实现自己的函数。
缺点：Hive查询延迟很严重。

1.5.Hive使用场景

数据的离线处理；比如：日志分析，海量结构化数据离线分析…
Hive的执行延迟比较高，因此hive常用于数据分析的，对实时性要求不高的场合；
Hive优势在于处理大数据，对于处理小数据没有优势，因为Hive的执行延迟比较高。

1.6.Hdfs 运行机制

https://hadoop.apache.org/docs/r1.0.4/cn/hdfs_design.html

1.7.Mapreduce 运行机制

参考博客1

参考博客2

1.8.SQL转化成MapReduce过程

Hive是如何将SQL转化为MapReduce任务的，整个编译过程分为六个阶段：
- 1-Antlr定义SQL的语法规则，完成SQL词法，语法解析，将SQL转化为抽象语法树AST Tree；
- 2-遍历AST Tree，抽象出查询的基本组成单元QueryBlock；
- 3-遍历QueryBlock，翻译为执行操作树OperatorTree；
- 4-逻辑层优化器进行OperatorTree变换，合并不必要的ReduceSinkOperator，减少shuffle数据量；
- 5-遍历OperatorTree，翻译为MapReduce任务；
- 6-物理层优化器进行MapReduce任务的变换，生成最终的执行计划。

1.9.Hive 架构:

(1) 用户接口：CLI（hive shell）；JDBC（java访问Hive）；WEBUI（浏览器访问Hive）
(2)元数据：MetaStore
元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段，标的类型（表是否为外部表）、表的数据所在目录。这是数据默认存储在Hive自带的derby数据库中，推荐使用MySQL数据库存储MetaStore。
（3）Hive使用HDFS存储数据(.Hadoop集群):
使用HDFS进行存储数据，使用MapReduce进行计算。
（4）Driver:驱动器
解析器（SQL Parser）:将SQL字符串换成抽象语法树AST，对AST进行语法分析，像是表是否存在、字段是否存在、SQL语义是否有误。
编译器（Physical Plan）：将AST编译成逻辑执行计划。
优化器（Query Optimizer）：将逻辑计划进行优化。
执行器（Execution）：把执行计划转换成可以运行的物理计划。对于Hive来说默认就是Mapreduce任务。

2.Hive交互方式

2.1.Hive交互shell

./hive 命令方式
bin/hive

2.2.JDBC交互

输入hiveserver2相当于开启了一个服务端，查看hivesever2的转态

输入netstat –nlp命令查看：

运行hiveserver2相当于开启了一个服务端，端口号10000，需要开启一个客户端进行通信，所以打开另一个窗口，输入命令beeline.
Example : :
beeline -u jdbc:hive2://192.168.122.1:10000/default -n hive-p hive@12
beeline -u jdbc:hive2://192.168.122.1:10000/default -n hive-p hive@12 -e ‘select * from dual;’

2.3.第三种交互方式:

使用sql语句或者sql脚本进行交互
vim hive.sql
create database if not exists mytest; use mytest; create table stu(id int,name string);
hive -f /export/servers/hive.sql

3.Hive 基础

3.1.hive 支持的基本类型

3.2.基本SQL语句

insert、delete、update、select
多表查询与代数运算
内连接
外链接
左连接
右链接
交叉链接
条件查询
Select where
Select order by
Select group by
Select join
目前使用方式: 将sql 封装到 sh
例如:/home/hadoop/sh/bet_rr_indicator_1.0.sh

3.3.排序

全局排序:
Order by 全局排序，只有一个reducer
Sort by 每个reducer 内部配置需要设置reducer 个数：

Distribute by

Cluster by 只能升序排序:

3.4.行转列

3.5.列转行

排序函数
Rank() 对应下图 rand_window_0
Dense_rank() 对应下图_ dense_rank_window_1
Row_number() 对应下图 row_number_window_2

3.6.hive 内连接外连接

多表查询与代数运算
内连接：

外链接

右连接：

3.7.Hive 存储格式

自定义编译（练习）

Hive 查看存储格式:
hadoop checknative
Snappy 得添加snappy 的jar 重新编译hadoop.jar

Map 设置压缩方式:
验证： UI界面任务的history–>configuration

Reduce 输出压缩的格式:
检查是否设置成功：从导入文件中查看文件的格式：

3.7.1.行存储和列存储

row layout 表示行存储
column layout 表示列存储

Textfile 和sequencefile的存储格式是基于行存储的
orc 和parquet 是基于列表存储的

3.7.2.textfile 格式:

3.7.3.Orc 格式

不是完成的列存储：是将按照256M 进行切分每个256 是一个stripe, stripe 是按照列方式存储，stripe 是按照256M 横向切分，因此不是完全列存储；

3.7.4.Parquet 存储格式

parquet 是一个二进制存储格式: (简单看)

3.8.内部表/外部表

内部表
内部表数据由Hive自身管理，数据存储的位置是hive.metastore.warehouse.dir
删除内部表会直接删除元数据（metadata）及存储数据

外部表
外部表数据的存储位置由自己制定，可以在云端
删除外部表仅仅会删除元数据
表结构和数据都将被保存

CREATE EXTERNAL TABLE
test_table(id STRING,
name STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,’ LOCATION ‘/data/test/test_table’;
– 导入数据到表中(文件会被移动到仓库目录/data/test/test_table)
LOAD DATA INPATH ‘/test_tmp_data.txt’ INTO TABLE test_table;

3.9.hive元数据存储

Hive中metastore（元数据存储）的三种方式：
Hive将元数据存储在RDBMS中，有三种模式可以连接到数据库：
a)内嵌Derby方式
b)Local方式
c)Remote方式

单用户本地模式:
1、元数据库内嵌模式：此模式连接到一个In-memory 的数据库Derby，一般用于Unit Test。

多用户模式:
2、元数据库mysql模式：通过网络连接到一个数据库中，是最经常使用到的模式。

多用户远程模式
3、MetaStoreServe访问元数据库模式：用于非Java客户端访问元数据库，在服务器端启动MetaStoreServer，客户端利用Thrift协议通过MetaStoreServer访问元数据库。

3.10.分区:

就是在系统上建立文件夹，把分类数据放在不同文件夹下面，加快查询速度
实战
CREATE TABLE
logs(ts BIGINT,
line string) partitioned BY (dt String,
country string) ROW format delimited fields terminated BY ‘\t’;

load DATA LOCAL inpath ‘/Users/Ginger/Downloads/dirtory/doc/7/data/file1’ INTO
TABLE
logs PARTITION (dt = ‘2001-01-01’,
country = ‘GB’);

show partitions logs;

3.11.分桶:

桶是比分区更细粒度的划分：就是说分区的基础上还还可以进行分桶；hive采用对某一列进行分桶的组织；hive采用对列取hash值，然后再和桶值进行取余的方式决定这个列放到哪个桶中；
create table if not exists center( id int comment ‘’ ,
user_id int comment ‘’ ,
cts timestamp comment ‘’ ,
uts timestamp comment ‘’ )
comment ‘’
partitioned by (dt string)
clustered by (id) sorted by(cts) into 10 buckets
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ‘\t’
stored as textfile ;

3.12 大数据应用架构

3.13 数据仓库架构

4.遇到的问题；

4.1.Hive sql 执行的顺序与mysql 对比：

Map阶段：
1.执行from加载，进行表的查找与加载
2.执行where过滤，进行条件过滤与筛选
3.执行select查询：进行输出项的筛选
4.执行group by分组：描述了分组后需要计算的函数
5.map端文件合并：map端本地溢出写文件的合并操作，每个map最终形成一个临时文件。
然后按列映射到对应的reduceReduce阶段：

Reduce阶段：
1.group by：对map端发送过来的数据进行分组并进行计算。
2.select：最后过滤列用于输出结果
3.limit排序后进行结果输出到HDFS文件
FROM … WHERE … SELECT … GROUP BY … HAVING … ORDER BY …

4.1.1 sql 执行顺序

参考的博客

sql语句执行顺序拆分

参考博客

4.2.Hive update 需要表设置

由于涉及到存储过程改造，需要更新操作，因此需要开启update 特性

参考博客
Hive 开启insert update 配置


  <property>
    <name>hive.support.concurrencyname>
    <value>truevalue>
  property>
  <property>
    <name>hive.enforce.bucketingname>
    <value>truevalue>
  property>
  <property>
    <name>hive.exec.dynamic.partition.modename>
    <value>nonstrictvalue>
  property>
  <property>
    <name>hive.txn.managername>
    <value>org.apache.hadoop.hive.ql.lockmgr.DbTxnManagervalue>
  property>
  <property>
    <name>hive.compactor.initiator.onname>
    <value>truevalue>
  property>
  <property>
    <name>hive.compactor.worker.threadsname>
    <value>1value>
  property>

Shell 开启：
Update is allowed for ORC file formats only. Also you have to set few properties before performing the update or delete.
Client Side
set hive.support.concurrency=true;
set hive.enforce.bucketing=true;
set hive.exec.dynamic.partition.mode=nonstrict;
set hive.txn.manager=org.apache.hadoop.hive.ql.lockmgr.DbTxnManager;
Server Side (Metastore)
set hive.compactor.initiator.on=true;
set hive.compactor.worker.threads=1;
After setting this create the table with required properties

CREATE TABLE test_result
(run_id VARCHAR(100), chnl_txt_map_key INT)
clustered by (run_id) into 1 buckets
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ‘\t’
STORED AS orc tblproperties (“transactional”=“true” );

注意！Hive3.1.2 需要配置hive-site.xml
只是创建时指定"transactional"=“true” 是不能执行insert 和update
参考博客

4.3.Hive脚本中设置变量

由于存储过程中涉及到变量，两种方式，一种采用shell 方式，一种采用 hive 提供的设置变量的方式

参考博客

4.7批量更新

存储过程改造过程，涉及到批量更新的操作，改造过程中遇到，批量更新的问题，幸运的是hive 2.2 已经支持了批量更新的特性

hive2.2 支持merge into 功能实现和mysql批量update 功能类似的功能

hive2.2.0及之后的版本支持使用merge into 语法，使用源表数据批量更新目标表的数据。使用该功能还需做如下配置

1、参数配置
set hive.support.concurrency = true;
set hive.enforce.bucketing = true;
set hive.exec.dynamic.partition.mode = nonstrict;
set hive.txn.manager = org.apache.hadoop.hive.ql.lockmgr.DbTxnManager;
set hive.compactor.initiator.on = true;
set hive.compactor.worker.threads = 1;
set hive.auto.convert.join=false;
set hive.merge.cardinality.check=false; – 目标表中出现重复匹配时要设置该参数才行

2、建表要求
Hive对使用Update功能的表有特定的语法要求, 语法要求如下:
(1)要执行Update的表中, 建表时必须带有buckets(分桶)属性
(2)要执行Update的表中, 需要指定格式,其余格式目前赞不支持, 如:parquet格式, 目前只支持ORCFileformat和AcidOutputFormat
(3)要执行Update的表中, 建表时必须指定参数(‘transactional’ = true);

4.71 批量更新语法

MERGE INTO AS T USING AS S
ON <boolean` `expression1> WHEN MATCHED [AND <booleanexpression2>] THEN UPDATE SET
WHEN MATCHED [AND <boolean` `expression3>] THEN DELETE WHEN NOT MATCHED [AND <booleanexpression4>] THEN INSERT VALUES

Example
CREATE DATABASE merge_data;
CREATE TABLE merge_data.transactions(
ID int,
TranValue string,
last_update_user string)
PARTITIONED BY (tran_date string)
CLUSTERED BY (ID) into 5 buckets
STORED AS ORC TBLPROPERTIES (‘transactional’=‘true’);

CREATE TABLE merge_data.merge_source(
ID int,
TranValue string,
tran_date string)
STORED AS ORC;

INSERT INTO merge_data.transactions PARTITION (tran_date) VALUES
(1, ‘value_01’, ‘creation’, ‘20170410’),
(2, ‘value_02’, ‘creation’, ‘20170410’),
(3, ‘value_03’, ‘creation’, ‘20170410’),
(4, ‘value_04’, ‘creation’, ‘20170410’),
(5, ‘value_05’, ‘creation’, ‘20170413’),
(6, ‘value_06’, ‘creation’, ‘20170413’),
(7, ‘value_07’, ‘creation’, ‘20170413’),
(8, ‘value_08’, ‘creation’, ‘20170413’),
(9, ‘value_09’, ‘creation’, ‘20170413’),
(10, ‘value_10’,‘creation’, ‘20170413’);

INSERT INTO merge_data.merge_source VALUES
(1, ‘value_01’, ‘20170410’),
(4, NULL, ‘20170410’),
(7, ‘value_77777’, ‘20170413’),
(8, NULL, ‘20170413’),
(8, ‘value_08’, ‘20170415’),
(11, ‘value_11’, ‘20170415’);

注意执行 merge into 前设置:set hive.auto.convert.join=false; 否则报:ERROR [main] mr.MapredLocalTask: Hive Runtime Error: Map local work failed
注意！ update set 语句后面的字段不用加表别名否则会报错
示例：SET TranValue = S.TranValue

MERGE INTO merge_data.transactions AS T
USING merge_data.merge_source AS S
ON T.ID = S.ID and T.tran_date = S.tran_date
WHEN MATCHED AND (T.TranValue != S.TranValue AND S.TranValue IS NOT NULL) THEN UPDATE SET TranValue = S.TranValue, last_update_user = ‘merge_update’
WHEN MATCHED AND S.TranValue IS NULL THEN DELETE
WHEN NOT MATCHED THEN INSERT VALUES (S.ID, S.TranValue, ‘merge_insert’, S.tran_date);

参考博客1
参考博客2

4.5 函数

desc function upper;
Desc function extended upper;

4.6.Hive 自定义udf 函数

公司中一般写UDF比较多：utdf ,
参考的网址:

4.6.1 临时函数

4.6.2 永久函数

创建永久函数:
hadoop fs -mkdir /lib

hdfs dfs -put /home/hadoop/jar/add_months-1.0-SNAPSHOT.jar /lib

CREATE FUNCTION user_info.add_month AS “com.hivefunction.AddMonths” USING JAR “hdfs://localhost:9000/lib/add_months-1.0-SNAPSHOT.jar”;

参考博客1
参考博客2

4.7.Hive 优化:

参考博客1

4.7.1.Fetch 抓取

Config.xml配置

4.7.2.本地模式:

默认是提交到yarn 上进行执行
测试环境，可以设置为本地模式更快；

4.7.3.大表join 小表 mapjoin设置

过滤掉空key

为了防止数据倾斜：可以给null 赋一个随机值，
Set mapreduce.job.reduces=5 设置5个reduce 注意！UI 查看reduces 时间，从applicationId -->history—>reducer查看每个reducer 执行从时间

4.7.4.Mapjoin

Set hive.mapjoin.smalltable.filesize=256000000 设置小表的大小，依据机器内存大小设置

4.7.5.Group by 优化

设置map进行聚合：
Combatiner 聚合： hive.map.aggr =true; 注意！添加combatiner组件操作，结果（业务逻辑不会变）不会变时使用
Hive.group by.skewindata=true ；

4.7.6.Count(distinct) 去重统计

Count(disticnt) distinct 是在一个reduce 处理，会出现数据倾斜的情况

Select count(distinct id) from bigtable 会看到 map处理完的数据放在一个reduce 中进行处理；注意！count(id) 最终会放到一个reduce中执行；

优化：先group by 然后在统计：
Select count(id) from (select id from bigtable group by id) a;

4.7.7.笛卡尔积：

4.7.8.行列过滤

谓词下推：先过滤通过子查询然后在关联表

4.7.9.动态分区

其实是依据表中的一个字段作为动态分区的字段
每个Mr默认设置分区是1000

首先是将数据导入到静态分区，然后在导入的动态分区中去:

实例入下图

总结：分区，分桶，是避免加载数据量过大；

4.7.10.数据倾斜

Map 数量设置
当小文件过多时，合并小文件
当文件大小一定时，字段就两三个，这样记录上亿条，需要降低 split.maxsize 增加map的数量；注意！看下面的公式；

当小文件过多时，合并小文件
当文件大小一定时，字段就两三个，这样记录上亿条，需要降低 split.maxsize 增加map的数量；注意！看下面的公式；

4.7.10.1.小文件合并:

4.7.10.2.复杂文件增加Map数量

当设置 map,reduce数量是-1时系统才会自动根据设置分片的大小进行动态切片

4.7.10.3.设置reduce的数量

4.7.10.4.并行执行

多个阶段执行并且没有依赖时打开：(hive中某几个阶段没有依赖)

4.7.10.5.Hive 严格模式

生产环境：肯定是严格模式
严格模式下，一些不允许的操作：
笛卡尔积是不允许的
分区表查询，必须带分区
Order by 时必须带limit

4.7.10.6.Jvm重用

可以在程序中手动设置： set mapreduce.job.jvm.numtasks=10;
或者在xml 文件中配置；
注意！Jvm 重用是针对同一个job中不同task的jvm重用；

4.7.10.7.推测执行

默认是开启的；

4.7.10.8.压缩见hive格式

4.7.10.9.explain

5.Sqoop语句如下：

hive 与mysql 数据类型映射关系

sqoop 命令详解参考博客

总结 mysql 中的double 有保留值例如double(10,7) 映射成hive 处理为decimal(10,7) 在数值计算过程中，计算结果和存储过程计算结果没有出入；

6.Hive 高级函数:

Over 一般跟在聚合函数的后面，指定窗口的大小
Select name,count(*) over() from business where subString(orderdate,1,7)=”2017-04”
group by name ;

Group by name 后over() 函数依据的是分组后的两行进行计算；

7 常见的面试题

7.1.Left semi join 和left join 的区别

LEFT SEMI JOIN （左半连接）是 IN/EXISTS 子查询的一种更高效的实现
Left semi join 相当于 in(keyset) 遇到右表重复记录，会跳过，而join是一直遍历，join会出现重复结果；

参考博客1

7.2.数据库拉链表

记录一个食物从开始一直到当前状态所有的状态的信息；
适应场景:
数据模型设计中遇到如下问题: 适用拉链表

例如一张流水表: ods_account
Hive 上一张流水记录表 ods_account_his
采用批量增加改变的添加到 ods_account_his

拉链表的逻辑设计

接下来通过一个实例来简述一下应该如何设计拉链表
首先，针对于某账户信息表，在2018年1月1日的信息如下表（为了简化设计，这里增加了信息变更时间UPDATE_DATE）：

UPDATE_DATE）：
由此表我们可以得到以下拉链表，开始时间和结束时间表示数据的生命周期，结束时间9999-99-99表示此条数据为当前时间的数据：

接下来，在2018年1月2日做数据采集时，采集到了UPDATE_DATE为2018-01-02的以下数据：

通过两个表的对比可以得出，对于同一个账户ID来说，1号账户的账户余额发生变更变成了600，2号账户的余额发生变更变成了100，则我们可以根据这张表和上面的拉链表关联，得到新的拉链表：

以此类推，我们可以查询到2018年1月1日之后的所有生命周期的数据，例如：
o查询当前所有有效记录： SELECT * FROM ACCOUNT_HIST WHERE END_DATE = ‘9999-99-99’
o查询2018年1月1日的历史快照：SELECT * FROM ACCOUNT_HIST WHERE START_DATE <= ‘2018-01-01’ AND END_DATE >= ‘2018-01-01’

参考博客1

7.3 抽取数据库中存在json数据怎么处理

推荐处理的函数 get_json_object 、 json_tuple、 regexp_replace

7.4 求日环比和月环比

7.5 数据仓库和数据集市

数据仓库和数据集市解释

8. hadoop-yarn 参数调优

例1:
假设一台服务器，内存128G，16个pcore，需要安装DataNode和NodeManager,
具体如何设置参数？
1）装完CentOS，消耗内存1G；
2）系统预留15%-20%(包含第1点)，防止全部使用二导致系统夯住或者OOM机制事件，
或者给未来部署其他组件预留空间。此时余下12880%=102G
3）DataNode设定2G，NodeManager设定4G，则剩余102-2-4=96G；
4）明确两点：pcore:vcore=1:2 ，故vcore数量为162=32；单个container占用4个vcore
5）确定 memory和vcore
yarn.nodemanager.resource.cpu-vcores --> 32 # 16*2=32
yarn.scheduler.minimum-allocation-vcores --> 1 # 最多有32个container
yarn.scheduler.maximum-allocation-vcores --> 4 # 最少有8个container
yarn.nodemanager.resource.memory-mb --> 96G # RM能使用的最大内存
yarn.scheduler.minimum-allocation-mb --> 1G #
yarn.scheduler.maximum-allocation-mb --> 12G # 极限8个(96/8)
注意：若有spark组件，当spark计算时内存不够大，
yarn.scheduler.maximum-allocation-mb势必要调大，
则这种理想化的设置会被打破，以memory为主

yarn参数调优参考博客

你可能感兴趣的:(数据仓库)

Hive使用必知必会系列王知无(import_bigdata) Hive系统性学习专栏 hive big data hdfs
一、Hive的几种数据模型内部表(Table将数据保存到Hive自己的数据仓库目录中：/usr/hive/warehouse)外部表(ExternalTable相对于内部表，数据不在自己的数据仓库中，只保存数据的元信息)分区表(PartitionTable将数据按照设定的条件分开存储，提高查询效率，分区----->目录)桶表(BucketTable本质上也是一种分区表，类似hash分区桶---->
Consul 与 Hive：云原生数据仓库集成 AI云原生与云计算技术学院 AI云原生与云计算数据仓库 consul hive ai
Consul与Hive：云原生数据仓库集成关键词：Consul、Hive、云原生、数据仓库集成、服务发现摘要：本文深入探讨了Consul与Hive在云原生环境下的数据仓库集成。首先介绍了集成的背景和相关概念，包括Consul的服务发现机制和Hive作为数据仓库的特点。接着详细阐述了核心概念及联系，通过文本示意图和Mermaid流程图展示其架构。对集成所涉及的核心算法原理进行了讲解，并给出Pytho
Hive详解
一：Hive的历史价值1，Hive是Hadoop上的KillerApplication，Hive是Hadoop上的数据仓库，Hive同时兼具有数据仓库中的存储引擎和查询引擎的作用；而SparkSQL是一个更加出色和高级的查询引擎，所以在现在企业级应用中SparkSQL+Hive成为了业界使用大数据最为高效和流行的趋势。2，Hive是Facebook的推出，主要是为了让不动Java代码编程的人员也能
SAP BW数据仓库总览 weixin_42559081
[分享]SAPBW数据仓库简介本文从一个简单的业务场景-销售分析入手，介绍SAPBW（BusinessInfomationWarehouse）实现多维分析的基本方案与实现技术;结合销售分析的实际需求,给出了销售分析管理数据仓库在SAPBW(业务信息仓库)模块中的实现过程描述。1、数据仓库的基本理论1.1数据仓库数据仓库是对数据进行提炼、加工和集成含有一定量商务信息和意义的信息。数据仓库不是为了存储
数据江湖的“三国演义”：数据仓库、数据湖与湖仓一体的全景对比大模型大数据攻城狮数据仓库数据湖湖仓一体 Iceberg hudi Snowflake 流式计算
目录1.数据仓库：秩序井然的“中央档案馆”核心特点：一切为了分析优势：稳定如山，分析无敌短板：灵活性欠佳实战案例：零售巨头的销售分析2.数据湖：自由奔放的“原始丛林”核心特点：包容一切优势：灵活到飞起短板：自由的代价实战案例：流媒体平台的用户行为分析3.湖仓一体：兼得鱼与熊掌的“新物种”核心特点：两全其美优势：全能选手短板：尚在成长实战案例：金融科技的实时风控4.技术选型的“天平”：如何选择适合你
【亲测免费】官方Kettle最新8.2版本下载介绍岑婵泉Polly
官方Kettle最新8.2版本下载介绍【下载地址】官方Kettle最新8.2版本下载介绍Kettle是一款功能强大的开源ETL工具，专为数据抽取、转换和加载而设计。它由纯Java编写，支持跨平台操作，适用于Windows、Linux和Unix系统。Kettle以其高效稳定的数据处理能力，成为数据工程师的首选工具。它的中文名“水壶”寓意将各种数据汇聚并按照指定格式输出，广泛应用于数据仓库建设和数据清
数据空间技术在智慧水库管理平台中的赋能小赖同学啊 test Technology Precious 物联网
数据空间技术在智慧水库管理平台中的赋能：设备到应用的数据传输优化数据空间技术为智慧水库管理平台提供了革命性的数据传输、处理和安全保障能力。以下是数据空间技术在设备到应用数据传输过程中的全面赋能方案：数据空间赋能架构设计中心层区域层设备层数据预处理边缘计算本地决策协议转换数据聚合安全传输元数据管理数据治理访问控制数据服务长期存储业务应用系统数据分析平台数据仓库区域数据空间网关中心数据空间平台边缘数据
一文说清楚Hive
Hive作为ApacheHadoop生态的核心数据仓库工具，其设计初衷是为熟悉SQL的用户提供大规模数据离线处理能力。以下从底层计算框架、优点、场景、注意事项及实践案例五个维度展开说明。一、Hive底层分布式计算框架对比Hive本身不直接执行计算，而是将HQL转换为底层计算引擎的任务。目前支持的主流引擎及其特点如下：计算引擎核心原理优点缺点适用场景MapReduce基于“Map→Shuffle→R
28、拥抱数据湖架构火箭统数据湖数据仓库大数据架构
拥抱数据湖架构1.数据湖简介在当今数据驱动的世界中，数据湖架构已经成为处理和存储海量数据的有效解决方案。数据湖不仅能够保存来自各种不同来源的原始格式的数据，还为企业提供了灵活且强大的数据分析能力。本文将探讨数据湖架构的概念、优势以及如何在实际中应用数据湖架构来解决数据存储和处理的问题。数据湖的概念最早于2011年被提出。与传统数据仓库不同，数据湖允许企业在不预先定义数据结构的情况下存储大量数据。数
数据湖vs数据仓库：非结构化数据存储的终极对决 AI大数据智能洞察大数据与AI人工智能数据仓库 ai
数据湖vs数据仓库：非结构化数据存储的终极对决关键词：数据湖,数据仓库,非结构化数据,数据存储,Schema-on-Read,Schema-on-Write,数据治理摘要：本文深入对比数据湖与数据仓库在非结构化数据存储领域的核心差异，从技术架构、数据处理范式、应用场景等维度展开分析。通过数学模型、代码实战和典型案例，揭示两者在非结构化数据管理中的优势与局限，为企业数据架构选型提供决策参考。1.背景
解锁Hive：高效数据查找的秘密武器 YangRyeon hive hadoop 数据仓库
Hive是什么？Hive是基于Hadoop的一个数据仓库工具，它能够进行数据提取、转化和加载操作，为存储、查询和分析Hadoop中的大规模数据提供了有效的机制。Hive能将结构化的数据文件映射为一张数据库表，让用户可以通过熟悉的SQL查询功能来处理数据。其内部机制是将SQL语句巧妙地转变成MapReduce任务来执行，大大降低了开发的难度和复杂性。例如，在面对海量的用户行为日志数据时，Hive就能
大数据领域数据架构的市场营销数据分析 AI大数据智能洞察大数据与AI人工智能大数据AI应用大数据架构数据分析 ai
大数据领域数据架构的市场营销数据分析：从数据洪流到营销决策的魔法桥梁关键词：大数据架构、市场营销分析、数据生命周期、RFM模型、实时数据处理、数据仓库、营销决策支持摘要：在这个"数据比石油更宝贵"的时代，企业每天都在被来自用户行为、交易记录、社交媒体等渠道的海量数据淹没。但对市场营销而言，“有数据"不等于"能决策”，就像拥有一堆未经打磨的矿石不等于拥有黄金。本文将以"数据架构"为核心，用生活化的比
Doris与StarRocks关系解析：大数据技术演进 AI大数据智能洞察大数据与AI人工智能大数据AI应用大数据 ai
Doris与StarRocks关系解析：大数据技术演进关键词：Doris,StarRocks,大数据分析,OLAP,MPP架构,开源技术,数据仓库摘要：在大数据爆炸的时代，我们每天都在产生海量数据——从手机里的聊天记录到电商平台的购物清单，从社交媒体的点赞评论到智能手表的健康数据。如何从这些数据中快速找到有价值的信息，就像在图书馆的百万本书中迅速找到你需要的那一本？OLAP（在线分析处理）系统就是
MCP 协议：打通 ERP/CRM/ 数据仓库的企业数据集成中枢
在数字化转型浪潮中，企业数据集成始终是绕不开的核心命题。ERP（企业资源计划）系统沉淀着采购、生产、财务等核心交易数据，CRM（客户关系管理）系统存储着客户画像与销售线索，数据仓库则汇聚着历史数据用于战略分析。但传统集成方式下，三者如同孤岛——ERP的结构化数据与CRM的半结构化客户笔记格式冲突，数据仓库的批量同步机制难以匹配ERP的实时交易频率，接口开发需针对不同系统重复编码，每年维护成本占IT
软考 | 系统架构设计师：信息系统综合知识大纲（思维导图）啊有礼貌软考系统架构设计师架构师思维导图软件架构
1.计算机软件与网络基础知识1.1操作系统操作系统的类型和结构操作系统基本原理网络操作系统及网络管理嵌入式操作系统与实时操作系统1.2数据库系统数据库管理系统的类型、结构和性能评价常用的关系型数据库管理系统数据库模式数据库规范化分布式数据库系统，并行数据库系统数据仓库与数据挖掘技术数据库工程备份恢复1.3嵌入式系统嵌入式系统的特点嵌入式系统的硬件组成与设计嵌入式系统应用软件及开发平台嵌入式系统网络
DolphinScheduler 如何高效调度 AnalyticDB on Spark 作业？ DolphinScheduler社区 spark 大数据分布式
DolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统，能高效地执行和管理大数据流程。用户可以在DolphinSchedulerWeb界面轻松创建、编辑和调度云原生数据仓库AnalyticDBMySQL版的Spark作业。前提条件AnalyticDBforMySQL集群的产品系列为企业版、基础版或湖仓版。AnalyticDBforMySQL集群中已创建Job型资源组
数据库和数据仓库区别 hhhecker Hadoop学习数据仓库数据库 hive
HIve与Mysql对比HiveMysql数据存储位置HDFS本地磁盘数据格式用户定义系统决定数据更新不支持（不支持修改和删除）支持（支持增删改查）索引有，但较弱，一般很少用有，经常使用的执行MapReduceExecutor执行延迟高低可扩展性高低数据规模大小数据库与数据仓库对比数据库：传统的关系型数据库主要应用在基本的事务处理，例如银行交易之类的场景数据库支持增删改查这些常见的操作。数据仓库：
数据仓库和数据库的区别神秘打工猴数据仓库数据库
一，数据仓库数据仓库（DataWarehouse）是一种专门设计用于报告和分析的数据库系统，它允许将来自一个或多个数据源的数据集成、存储和分析。数据仓库的主要目的是支持决策制定，通过提供快速访问历史数据和进行复杂查询的能力。以下是数据仓库的一些关键特性和概念：1.主题导向：数据仓库围绕特定的业务主题构建，如销售、客户或财务，而不是围绕应用程序的功能。2.集成性：数据仓库集成了来自不同源系统的数据，
数据仓库是什么，一文读懂数据仓库设计步骤 Leo.yuan 数据数据仓库大数据人工智能数据库信息可视化
目录一、数据仓库：干啥用的？1.数据仓库是啥？2.数据仓库有啥大用？二、设计之前：准备啥？1.搞清楚业务要啥2.摸清数据家底3.划好仓库边界三、概念设计：搭框架1.定好主题域2.分清维度和事实3.画出概念模型四、逻辑设计：定细节1.设计维度表和事实表2.想好怎么存数据3.定好安全规矩五、物理设计：落地实施1.选好数据库软件2.优化数据库性能3.部署上线六、实施与测试：跑起来1.ETL：灌数据2.全
Flink-Hadoop实战项目 Dylan_muc hadoop hdfs flink
项目说明文档1.项目概述1.1项目简介本项目是一个基于ApacheFlink的大数据流处理平台，专门用于处理铁路系统的票务和车次信息数据。系统包含两个核心流处理作业：文件处理作业和数据合并作业，采用定时调度机制，支持Kerberos安全认证，实现从文件读取到数据仓库存储的完整数据处理链路。1.2技术栈流处理引擎:ApacheFlink1.18.1存储系统:HDFS(Hadoop分布式文件系统)数据
【Redis篇】数据库架构演进中Redis缓存的技术必然性—高并发场景下穿透、击穿、雪崩的体系化解决方案奈斯DB Redis专栏缓存 redis 数据库架构运维
《博主主页》：CSDN主页__奈斯DBIFClub社区主页__奈斯、《擅长领域》：擅长阿里云AnalyticDBforMySQL(分布式数据仓库)、Oracle、MySQL、Linux、prometheus监控；并对SQLserver、NoSQL(Redis)有了解如果觉得文章对你有所帮助，欢迎点赞收藏加关注作为DBA或运维在日常与Redis打交道时，往往更关注部署安装、Key清理、内存回收、备份
Linux教程（4）----[hive数据仓库工具] .房东的猫 Linux教程（完善中~~）linux
Hive基本概念Hive简介什么是HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。为什么使用Hive直接使用hadoop所面临的问题人员学习成本太高
flink-sql读写hive-1.13 第一片心意 flink flink sql hive
1.版本说明本文档内容基于flink-1.13.x，其他版本的整理，请查看本人博客的flink专栏其他文章。1.1.概述ApacheHive已经成为了数据仓库生态系统中的核心。它不仅仅是一个用于大数据分析和ETL场景的SQL引擎，同样也是一个数据管理平台，可用于发现，定义，和演化数据。Flink与Hive的集成包含两个层面。一是利用了Hive的MetaStore作为持久化的Catalog，用户可通
推荐文章：《同济大学软件学院万院长谈择业》 weixin_34087301
同济大学软件学院万院长谈择业一、关于企业计算方向企业计算（EnterpriseComputing）是稍时髦较好听的名词，主要是指企业信息系统，如ERP软件（企业资源规划）、CRM软件（客户关系管理）、SCM软件（供应链管理，即物流软件），银行证券软件，财务软件，电子商务/政务（包括各种网站），数据仓库，数据挖掘，商务智能等企业信息管理系统。企业计算领域对人才的需求显然永远是数量最大的，因为这是计算
计算机系毕业生的前途在哪（一个牛人对计算机系的阐述）蚊子嵌入式嵌入式操作系统 wince linux 手机游戏 j2me
值得未毕业的、刚毕业的、或想转行的朋友们揣摩参考。一、关于企业计算方向企业计算(EnterpriseComputing)是稍时髦较好听的名词，主要是指企业信息系统如：ERP软件(企业资源规划)、CRM软件(客户关系管理)、SCM软件(供应链管理，即物流软件)，银行证券软件财务软件电子商务/政务(包括各种网站)，数据仓库，数据挖掘，商务智能等企业信息管理系统。企业计算领域对人才的需求显然永远是数量最
大学生学软件必看欧巴Godwin 日志嵌入式嵌入式操作系统 wince linux 手机游戏 j2me
一、关于企业计算方向企业计算(EnterpriseComputing)是稍时髦较好听的名词，主要是指企业信息系统,如ERP软件（企业资源规划）、CRM软件（客户关系管理）、SCM软件（供应链管理，即物流软件）,银行证券软件,财务软件,电子商务/政务（包括各种网站），数据仓库，数据挖掘，商务智能等企业信息管理系统.企业计算领域对人才的需求显然永远是数量最大的,因为这是计算机应用最多的领域.搞这方面的
数据湖与数据仓库在云平台的融合架构：Delta Lake实战指南 AI云原生与云计算技术学院 AI云原生与云计算数据仓库架构 ai
数据湖与数据仓库在云平台的融合架构：DeltaLake实战指南关键词：数据湖,数据仓库,云平台,融合架构,DeltaLake,湖仓一体,数据治理摘要：本文深入探讨数据湖与数据仓库在云平台的融合架构，以DeltaLake为核心技术载体，解析湖仓融合的技术原理、实施路径及最佳实践。通过对比传统数据架构的痛点，阐述DeltaLake如何通过ACID事务、Schema管理、时间旅行等特性实现非结构化数据湖
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
【面试系列】C++ 高频面试题野老杂谈全网最全IT公司面试宝典 c++面试编程语言
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️全流程数据技术实战指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台和数据仓库的核心技术和方法。文章目录C++初级面试题及其详细解答1.解释C
Docker快速构建Hive测试环境静谧星光 docker hive 容器编程
Docker是一种流行的容器化平台，可以帮助我们快速构建和管理应用程序的环境。在本文中，我们将学习如何使用Docker快速构建Hive测试环境。Hive是一个基于Hadoop的数据仓库基础设施，它提供了一种类似于SQL的查询语言，用于分析和处理大规模数据集。步骤1：安装Docker和DockerCompose首先，我们需要安装Docker和DockerCompose。您可以根据您的操作系统类型，从
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l