击水三千里

大数据工程师面试笔试题

Linux笔试题

参考答案
一、1 B , 2 B ,3 B, 4 D ,5 C ,6 D
7 B
块设备概念：
一种具有一定结一种具有一定结构的随机存取设备，对这种设备的读写是按块进行的，他使用缓冲区来存放暂时的数据，待条件成熟后，
从缓存一次性写入设备或者从设备一次性读到缓冲区。可以随机访问，块设备的访问位置必须能够在介质的不同区间前后移动。

8 B, 9 B
9 B
crontab文件的格式：
minute hour day month weekday username command
minute：分，值为0-59
hour：小时，值为1-23
day：天，值为1-31
month：月，值为1-12
weekday：星期，值为0-6（0代表星期天，1代表星期一，以此类推）
username：要执行程序的用户，一般设置为sh
command：要执行的程序路径（设置为绝对路径）例如：/home/mvp/osyunwei.sh
10 D
11 C
shell上:
0表示标准输入
1表示标准输出
2表示标准错误输出
> 默认为标准输出重定向，与 1> 相同
2>&1 意思是把标准错误输出重定向到标准输出.
&>file 意思是把标准输出和标准错误输出都重定向到文件file中
12 B ,13 A ,14 A
15 D
linux系统进程类型有 :交互进程 ;批处理进程 ;监控进程(守护进程);

二、
https://blog.csdn.net/shantf93/article/details/79775702
https://blog.csdn.net/fuli1215/article/details/6384513

1 ctrl+z
2 般指令模式编辑模式
3 useradd passwd
4 httpd.conf
5 hostname
6
7 bash
8 运行态、就绪态和等待态（阻塞态）
9 方括号两边必须有空格
10 >

三、
1 echo "Hello World"
2 如何获取变量长度
variable="123"
${#variable}
# expr length ${variable}
echo ${variable} |wc -L

3
#!/bin/sh
i=0
while [ "$i" -le 10 ]
do
echo "num is $i"
((i++));
#i=`expr $i + 1`;
sleep

4
Linux是开发源代码的自bai由软du件，用户对前者有很高的自主权，在实际的的开发是处在一个完全开放的环境之中；
而unix是对源代码实行知识产权保护的传统商业软件，用户的开发完全是处在一个黑箱之中，只有相关的开发人员才能够接触的产品的原型；

5
vi /etc/hosts

6
grep 是搜索
例如： ps -ef | grep java
表示查看所有进程里CMD是java的进程信息
ps -aux | grep java
-aux 显示所有状态
kill 命令用于终止进程
例如： kill -9 [PID]
-9表示强迫进程立即停止
通常用ps 查看进程PID ，用kill命令终止进程

7
进程查看的命令是ps和top。
进程调度的命令有at，crontab，batch，kill

8 在对linux系统分区进行格式化时需要对磁盘簇（或i节点密度）的大小进行选择，请说明选择的原则。
磁盘簇（或i节点密度）是文件系统调度文件的基本单元。磁盘簇的大小，直接影响系统调度磁盘空间效率。
当磁盘分区较大时，磁盘簇也应选得大些；当分区较小时，磁盘簇应选得小些。通常使用经验值。

9
在linux系统中，任何一个独立（注意：这里强调是独立的文件）的文件，都会为其分配一个i结点，它们是对应的，然后通过i结点再找到相应的文件的实际存储内容。
软链接是建立了另一个新的独立的文件，会写上链接文件的文件名。一个字母一个字节。它指向源文件，因为源文件没了，所以它就不能正常指向了；
硬链接实际是一条文件名与i结点的记录，在删除源文件的时候，系统则将链接数减1，当链接数为0的时候，inode就会被系统回收，文件的内容才会被删除；

Linux机试题

#!/bin/sh
a=0
b=1
c=1
for i in {1..25}
do

  echo "$c "
  c=$[a+b]
  #c=（($a+$b))
  a=$b
  b=$c

done

#!/bin/sh
#echo "$1 $2"
if [ ! -f "$1" ]; then
  echo "$1 the file not exists"
else
  mv $1 $2
fi

Hadoop笔试题

一、

1 c

2 a

3 d

JobTracker  对应于 NameNode

TaskTracker 对应于 DataNode

4 c

5 c

6 c

   1、namenode元数据-》内存-》启动后
   2、namenode元数据-》本地文件系统文件中-》启动前
   3、格式化-》fsimage镜像文件
   4、edits编辑日志文件-》用来记录用户行为记录数据(数据比较多)
   5、减少namenode重启的时间、合并文件
   6、secondarynamenode读取两类文件，加载到内存
           -》写到一个新的fsimage镜像文件
           -》再生成一个edits编辑日志文件

7. c

8 a,d

9 abc

10 bd

11 c

12 b

13 b

14 c

组件

节点

默认端口

配置

用途说明

HDFS

DataNode

50010

dfs.datanode.address

datanode服务端口，用于数据传输

HDFS

DataNode

50075

dfs.datanode.http.address

http服务的端口

HDFS

DataNode

50475

dfs.datanode.https.address

https服务的端口

HDFS

DataNode

50020

dfs.datanode.ipc.address

ipc服务的端口

HDFS

NameNode

50070

dfs.namenode.http-address

http服务的端口

HDFS

NameNode

50470

dfs.namenode.https-address

https服务的端口

HDFS

NameNode

8020

fs.defaultFS

接收Client连接的RPC端口，用于获取文件系统metadata信息。

HDFS

journalnode

8485

dfs.journalnode.rpc-address

RPC服务

HDFS

journalnode

8480

dfs.journalnode.http-address

HTTP服务

HDFS

ZKFC

8019

dfs.ha.zkfc.port

ZooKeeper FailoverController，用于NN HA

YARN

ResourceManager

8032

yarn.resourcemanager.address

RM的applications manager(ASM)端口

YARN

ResourceManager

8030

yarn.resourcemanager.scheduler.address

scheduler组件的IPC端口

YARN

ResourceManager

8031

yarn.resourcemanager.resource-tracker.address

IPC

YARN

ResourceManager

8033

yarn.resourcemanager.admin.address

IPC

YARN

ResourceManager

8088

yarn.resourcemanager.webapp.address

http服务端口

YARN

NodeManager

8040

yarn.nodemanager.localizer.address

localizer IPC

YARN

NodeManager

8042

yarn.nodemanager.webapp.address

http服务端口

YARN

NodeManager

8041

yarn.nodemanager.address

NM中container manager的端口

YARN

JobHistory Server

10020

mapreduce.jobhistory.address

IPC

YARN

JobHistory Server

19888

mapreduce.jobhistory.webapp.address

http服务端口

HBase

Master

60000

hbase.master.port

IPC

HBase

Master

60010

hbase.master.info.port

http服务端口

HBase

RegionServer

60020

hbase.regionserver.port

IPC

HBase

RegionServer

60030

hbase.regionserver.info.port

http服务端口

HBase

HQuorumPeer

2181

hbase.zookeeper.property.clientPort

HBase-managed ZK mode，使用独立的ZooKeeper集群则不会启用该端口。

HBase

HQuorumPeer

2888

hbase.zookeeper.peerport

HBase-managed ZK mode，使用独立的ZooKeeper集群则不会启用该端口。

HBase

HQuorumPeer

3888

hbase.zookeeper.leaderport

HBase-managed ZK mode，使用独立的ZooKeeper集群则不会启用该端口。

Hive

Metastore

10002

hive.server2.webui.port

Hive2.0才有的WEBUI的配置

Hive

Metastore

9083
hive.metastore.uris
/etc/default/hive-metastore中export PORT=来更新默认端口

Hive

HiveServer

10000

/etc/hive/conf/hive-env.sh中export HIVE_SERVER2_THRIFT_PORT=来更新默认端口

ZooKeeper

Server

2181

/etc/zookeeper/conf/zoo.cfg中clientPort=

对客户端提供服务的端口

ZooKeeper

Server

2888

/etc/zookeeper/conf/zoo.cfg中server.x=[hostname]:nnnnn[:nnnnn]，标蓝部分

follower用来连接到leader，只在leader上监听该端口。

ZooKeeper

Server

3888

/etc/zookeeper/conf/zoo.cfg中server.x=[hostname]:nnnnn[:nnnnn]，标蓝部分

用于leader选举的。只在electionAlg是1,2或3(默认)时需要。

15 d

Hadoop1.x中的HDFS和MapReduce在高可用、扩展性等方面存在问题。

1.HDFS存在的问题

NameNode单点故障，难以应用于在线场景。

NameNode压力过大，且内存受限，影响扩展性。

2.MapReduce存在的问题

JobTracker访问压力大，影响系统扩展性。

难以支持除MapReduce之外的计算框架，比如Spark、Strom等。

二、https://blog.csdn.net/xiaobao5214/article/details/83856132

1.Hadoop集群可运行的三个模式单机（本地）模式、伪分布式模式、全分布式模式

2.利用备份恢复

3、读取

4、22

5. NameNode 不需要从磁盘读取 metadata,所有数据都在内存中,硬盘上的只是序列化的结果,只有每次namenode 启动的时候才会读取

6、

7、块

8、

9、

dfs-stop .sh stop

dfs-start .sh start

10、多冗余体系结构设计和产品体积庞大

三、

1.Hadoop集群可以运行的3个模式分别是什么，有哪些注意点？

单机模式——是用来bai测试的

伪分布模式——主从节du点在一台机器zhi上，SSH+RPC，需要注意关闭防火墙dao，配置SSH免登录

完全分布模式——真正生产环境要的模式，需要配置主、从节点，关闭防火墙，配置SSH免登录注意要保证每个节点（机器）上的HADOOP配置项要一样

2.Hadoop集群安全模式的问题

https://blog.csdn.net/qq_32297447/article/details/79492825

hadoop为了防止数据丢失，启动了“安全模式”的设置，每次启动hadoop后一段时间内集群处于安全模式，该模式下集群会检查各节点文件块的记录，如果数据块中满足replication设置值的数据块的数量在总数据块数量中所占比例没有超过一定值（称为安全模式阀值，默认为0.999f），那么集群将持续处于安全模式，在该模式下，文件系统中的内容不允许修改也不允许删除，直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性，同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全模式。在实践过程中，系统启动的时候去修改和删除文件也会有安全模式不允许修改的出错提示，只需要等待一会儿即可

3、可以

4、Hadoop配置步骤

配置Hadoop环境变量

修改启动类 hadoop-env.sh

修改配置文件（core-site.xml，hdfs-site.xml，mapred-site.xml，yarn-site.xml）

启动格式化HDFS

start-dfs.sh ,start-yarn.sh 命令，启动Hadoop

5、hadoop要启动哪些进程

Namenode 的主要作用管理文件系统文件的元数据信息

Datanode是文件系统的工作节点，他们根据客户端或者是namenode的调度进行存储和检索数据

Secondary NameNode 作用帮助 NameNode 合并编辑日志，减少 NameNode 启动时间，定时备份数据

ResourceManager是Yarn集群主控节点，负责协调和管理整个集群（所NodeManager）的资源

NodeManager管理一个YARN集群中的每一个节点。比如监视资源使用情况（ CPU，内存，硬盘，网络），跟踪节点健康等。

6、

7、如何实现Hadoop二级排序

https://blog.csdn.net/lzm1340458776/article/details/42875751

第一步：定义一个组合键的bean

第二步：自定义一个比较器，对key进行排序时使用

第三步：自定义一个分区器，在shuffle阶段使用

第四步：自定义一个分组器

第五步：编写mapReduce程序

8、MapReduce中combine、partition、shuffle的作用是什么？

和partition都是函数，中间的步骤应该只有shuffle

combine作用是把同一个key的键值对合并在一起减少输出到 reduce 的数据量，提高网络传输瓶颈，可以自定义的。是map的最后一步。

partition是分割map每个节点的结果，按照key分别映射给不同的reduce，也是可以自定义的

shuffle分为map端和reduce端

map端将结果输出到环形缓冲区中，默认大小：100MB（可以自定义），当内存使用空间达到80%（可以自定义）会触发spill溢写（分区partition，排序sort，溢写spill，合并merge）到本地磁盘

reduce端到本地磁盘去拉去自己那部分的数据，同样也是放到内存然后分组group。最后溢写spill，合并merge。

9、MapReduce如何解决数据倾斜问题

（1）、hive.groupby.skewindata=true 它使计算变成了两个mapreduce，先在第一个中在 shuffle 过程 partition 时随机给 key 打标记，使每个key 随机均匀分布到各个 reduce 上计算，但是这样只能完成部分计算，因为相同key没有分配到相同reduce上，所以需要第二次的mapreduce,这次就回归正常 shuffle,但是数据分布不均匀的问题在第一次mapreduce已经有了很大的改善，因此基本解决数据倾斜。

（2）、在 key 上面做文章，在 map 阶段将造成倾斜的key 先分成多组，例如 aaa 这个 key,map 时随机在 aaa 后面加上 1,2,3,4 这四个数字之一，把 key 先分成四组，先进行一次运算，之后再恢复 key 进行最终运算。

10、可以，例如我们的集群就是为了存储文件而设计的，不涉及到数据的计算，就可以将mapReduce都省掉

Hive笔试题

一、

D

A

B

C

B

B

B

BC

http://www.itkeyword.com/doc/318868814916432151/hive-HIVE-Hive

join操作，where的条件写在join里面，使得减少join的数量（经过map端过滤，只输出复合条件的）

join操作，mapjoin方式，无reduce操作，在map端做join操作（map端cache小表的全部数据），这种方式下无法执行Full/RIGHT OUTER join操作

对于count(distinct)操作，在map端以group by的字段和count的字段联合作为key，如果有大量相同的key，那么会存在数据倾斜的问题

数据的倾斜还包括，大量的join连接key为空的情况，空的key都hash到一个reduce上去了，解决这个问题，最好把空的key和非空的key做区分,空的key不做join操作。

当然有的hive操作，不存在数据倾斜的问题，比如数据聚合类的操作，像sum、count，因为已经在map端做了聚合操

9、AB

10、CD

https://blog.csdn.net/wzc8961661/article/details/104509525/

Hive 目前不支持更新操作(Hive从0.14版本开始支持事务和行级更新，但缺省是不支持的，需要一些附加的配置)。另外，由于hive 在hadoop 上运行批量操作，它需要花费很长的时间，通常是几分钟到几个小时才可以获取到查询的结果。Hive 必须提供预先定义好的schema 将文件和目录映射到列，并且Hive 与ACID 不兼容。

11、AC

12、AD

13、A

14、B

15、A

二、

1、show dataase, use database

2、Drop table t

3、Load data local input ‘路径’ into table t partition(data=’2020-07-29’)

4、Hive不支持where子句中的子查询，in内的子查询，exists内的子查询

Hive只允许子查询在from中出现，hive在0.13版本以后开始支持更多的子查询，如in ，内的子查询的子查询

5、SELECT *

FROM `table` AS t1 JOIN (

SELECT ROUND(RAND() * ((SELECT MAX(id) FROM `table`)-(SELECT MIN(id) FROM `table`))+(SELECT MIN(id) FROM `table`)) AS id

from `table` limit 5) AS t2 on t1.id=t2.id

ORDER BY t1.id LIMIT 1;

https://blog.csdn.net/tianzhiyitan/article/details/38116325

6、

Hive的常见压缩格式TextFile, Sequence Files, RCFile, ORCFile，Parquet[ˈpɑːkeɪ]

Hive的常见压缩算法snappy,bzip2, gzip, lzo

7、Hive的三种排序Sort By，Order By，Cluster By

https://www.cnblogs.com/wcgstudy/p/11434484.html

8、数据仓库

9、local模式（内嵌derby），本地模式，远程模式（mysql）

https://blog.csdn.net/lzxlfly/article/details/80793164

10、10002 (Hive2.0才有的WEBUI的配置)

三、

1、

如果是内部表，那么我们删除表，HDFS中的数据也会被删除

如果是外部表，那么我们删除表。hdfs中的数据也会不会被删除

2、hive 底层与数据库交互原理

Hive 的查询功能是由 hdfs 和 mapreduce 结合起来实现的，对于大规模数据查询还是不建议在 hive 中，因为过大数据量会造成查询十分缓慢。 Hive 与 mysql 的关系：只是借用 mysql 来存储 hive 中的表的元数据信息，称为 metastore

https://www.cnblogs.com/wcgstudy/p/11407557.html

3、hive 如何调优

数据的压缩与存储格式

创建分区表，桶表，拆分表

优化sql

解决数据倾斜

合并小文件

https://blog.csdn.net/qq_36753550/article/details/82825207

4、hive自定义函数学习

使用方式：在HIVE会话中add 自定义函数的jar文件，然后创建function继而使用函数

①编写自定义函数；

②打包上传到集群机器中；

③进入hive客户端，添加jar包：hive> add jar /root/hive_udf.jar；

④创建函数：hive> create function getLen as 'com.raphael.len.GetLength';

⑤销毁函数：hive> DROP FUNCTION getLen;

https://www.cnblogs.com/lrxvx/p/10974341.html

5、hive数据倾斜

表现：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。

原因：某个reduce的数据输入量远远大于其他reduce数据的输入量

1)、key分布不均匀

2)、业务数据本身的特性

3)、建表时考虑不周

4)、某些SQL语句本身就有数据倾斜

解决方案：

（1）参数调节

set hive.map.aggr=true

set hive.groupby.skewindata=true

（2）熟悉数据的分布，优化sql的逻辑，找出数据倾斜的原因。

6、

①order by 和传统sql中的order by 一样，对数据做全局排序，数据量大的情况下可能不能出结果

②distribute by 是控制map端在reduce上是如何区分的，distribute by 会把指定的值发到同一个reduce中，一般情况下可以sort by 结合使用，先进行分组reduce，再进行排序

③sort by 是局部排序，会在每个reduce端做排序，每个reduce端是排序的，也就是每个reduce出来的数据是有序的，但是全部不一定有序

④cluster by除了具有 distribute by 的功能外还兼具 sort by 的功能。（只能是使用默认的升序排序，不能使用ACS和DESC）

7、

Split将字符串转化为数组。split('a,b,c,d' , ',') ==> ["a","b","c","d"]

COALESCE(T v1, T v2, …) 返回参数中的第一个非空值；如果所有值都为 NULL，返回NULL

collect_list列出该字段所有的值，不去重 select collect_list(id) from table;

https://blog.csdn.net/weixin_40271036/article/details/79943480?utm_source=blogxgwz4

8、

1）row_number：不管col2字段的值是否相等，行号一直递增，比如：有两条记录的值相等，但一个是第一，一个是第二

2）rank：上下两条记录的col2相等时，记录的行号是一样的，但下一个col2值的行号递增N（N是重复的次数），比如：有两条并列第一，下一个是第三，没有第二

3）dense_rank：上下两条记录的col2相等时，下一个col2值的行号递增1，比如：有两条并列第一，下一个是第二

9、Hive常见的文件类型

TextFile, Sequence Files, RCFile, ORCFile，Parquet

10、Hive体系结构

用户户接口：client

元数据：metastore

驱动器：dirver

Oozie.Flume.Hu.Sqoop笔试

你可能感兴趣的:(云计算/大数据)

Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
大数据之路：阿里巴巴大数据实践——大数据领域建模综述
为什么需要数据建模核心痛点数据冗余：不同业务重复存储相同数据（如用户基础信息），导致存储成本激增。计算资源浪费：未经聚合的明细数据直接参与计算（如全表扫描），消耗大量CPU/内存资源。数据一致性缺失：同一指标在不同业务线的口径差异（如“活跃用户”定义不同），引发决策冲突。开发效率低下：每次分析需重新编写复杂逻辑，无法复用已有模型。数据建模核心价值性能提升：分层设计（ODS→DWD→DWS→ADS）
大数据技术笔记—spring入门卿卿老祖
篇一spring介绍spring.io官网快速开始Aop面向切面编程，可以任何位置，并且可以细致到方法上连接框架与框架Spring就是IOCAOP思想有效的组织中间层对象一般都是切入service层spring组成前后端分离已学方式，前后台未分离：Spring的远程通信：明日更新创建第一个spring项目来源：科多大数据
大数据精准获客并实现高转化的核心思路和实现方法 2401_88470328 大数据精准获客数据分析数据挖掘大数据需求分析 big data
大数据精准获客并实现高转化的核心思路和实现方法大数据精准获客并实现高转化的核心思路和实现方法在当今信息爆炸的时代，企业如何通过海量的数据精准获取潜在客户，并提高转化率，已经成为营销策略中的关键环节。大数据精准获客的核心思路在于数据驱动、多渠道触达以及优化转化路径，从而实现高效的市场推广和客户转化。数据驱动原理和机制数据驱动的核心在于通过分析用户行为数据，挖掘潜在客户的需求和喜好，从而制定更加精准的
一地鸡毛—一个中年男人的日常2021241 随止心语所自欲律
2021年8月31日，星期二，阴有小雨。早起5:30，跑步10公里。空气清新，烟雨朦胧，远山如黛，烟雾缭绕，宛若仙境。空气中湿气很大，朦胧细雨拍打在脸上，甚是舒服，跑步的人明显减少。早上开会，领导说起逐年大幅度下滑的工作业绩，越说越激动，说得脸红脖子粗。开完会又讨论了一下会议精神，心情也有波动，学习热情不高。心里还有一个大事，是今日大数据分析第1次考试，因自己前期没学，而且计算机编程方面没有任何基
Serverless架构下Spring Function的创新实践 tmjpz04412 serverless 架构 spring
引言：Serverless与Spring生态的交汇背景介绍：云计算与Serverless架构的兴起Spring生态的演进与云原生适配性核心问题：传统Spring应用如何融入Serverless范式Serverless架构的核心特征与挑战事件驱动、弹性伸缩与按需计费冷启动问题与性能优化需求Spring应用在Serverless环境中的典型瓶颈（如依赖注入、上下文初始化）SpringFunction的
深入了解 Kubernetes（k8s）：从概念到实践
目录一、k8s核心概念二、k8s的优势三、k8s架构组件控制平面组件节点组件四、k8s+docker运行前后端分离项目的例子1.准备前端项目2.准备后端项目3.创建k8s部署配置文件4.部署应用到k8s集群在当今云计算和容器化技术飞速发展的时代，Kubernetes（简称k8s）已成为容器编排领域的事实标准。无论是互联网巨头、传统企业还是初创公司，都在广泛采用k8s来管理和部署容器化应用。本文将带
Hive详解
一：Hive的历史价值1，Hive是Hadoop上的KillerApplication，Hive是Hadoop上的数据仓库，Hive同时兼具有数据仓库中的存储引擎和查询引擎的作用；而SparkSQL是一个更加出色和高级的查询引擎，所以在现在企业级应用中SparkSQL+Hive成为了业界使用大数据最为高效和流行的趋势。2，Hive是Facebook的推出，主要是为了让不动Java代码编程的人员也能
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
Hive与Hudi集成：增量大数据处理方案 AI大数据智能洞察大数据与AI人工智能大数据AI应用 hive hadoop 数据仓库 ai
Hive与Hudi集成：增量大数据处理方案关键词：Hive、Hudi、增量大数据处理、数据集成、数据湖摘要：本文主要探讨了Hive与Hudi集成的增量大数据处理方案。我们将深入了解Hive和Hudi的核心概念，剖析它们之间的关系，详细阐述集成的算法原理与操作步骤，通过实际项目案例展示如何进行开发环境搭建、代码实现与解读。同时，会介绍该集成方案的实际应用场景、相关工具和资源，探讨未来发展趋势与挑战。
新一代数据库：融合多模智能，重塑数据价值
一、场景重塑产业格局：数据库“融合进化”AI浪潮奔涌而至，数字产业格局加速重构。云计算、移动互联、万物互联（IoT）、人工智能（AI）等技术的深度融合与快速落地，正以前所未有的速度重塑着企业的应用形态。新业务场景层出不穷——从高并发的在线交易、实时精准的分析决策，到海量物联网设备监控、基于图关系的风控反欺诈，再到AI驱动的智能推荐与内容生成，应用场景的多样性与复杂性已突破传统数据库的能力边界。这对
获取三网实时访客---无忧获客大数据无牛_abc3
很多传统行业的公司与企业对于运营商大数据的理解还是很基础的，大多数都是在买资源程度的认识。一些敢于尝试运营商大数据获客的传统企业自然会受益颇多。运营商大数据所提供的获客服务也非常简单，就是将自身的用户数据资源、针对不同的企业去制定有个性化需求的获客标准，运营商大数据根据不同的企业，和行业去进行精准客户的部署和分配，让相关合作的企业通过运营商提供的CRM平台进行一个有效的触达。运营商大数据已经在全国
物联网与数字孪生：深度协同驱动智能未来 —— 专业规划分析 boyedu 物联网域名物联网区块链
一、定义与核心技术架构1.1物联网（IoT）的技术本质与架构定义：通过信息传感设备将物理对象与互联网连接，实现智能化识别、定位、跟踪和管理的网络。四层架构：感知层：传感器、RFID等设备采集物理数据（如温度、压力）。网络层：通过Wi-Fi、5G等通信技术传输数据，确保实时性与稳定性。平台层：云计算/边缘计算平台处理数据（如AWSIoT、AzureIoT）。应用层：提供终端服务（如智能家居、工业监控
边缘计算与云计算协同：未来架构的黄金组合大力出奇迹985 边缘计算云计算架构
边缘计算与云计算的协同融合，正成为支撑未来智能社会的核心架构。本文从技术互补性、应用场景拓展、架构安全保障、性能优化路径和未来发展趋势五个维度，系统剖析二者协同的底层逻辑与实践价值。通过分析边缘节点的实时处理能力与云端的全局算力优势如何形成合力，探讨该架构在工业互联网、自动驾驶、智慧城市等领域的创新应用，并针对安全防护、资源调度等关键问题提出解决方案，最终总结其对数字经济发展的战略意义。一、技术互
DeepSeek在大数据领域正掀起一场深刻的变革智海观潮 AI 大数据 deepseek AI
随着人工智能技术的飞速发展，DeepSeek作为一款行业领先的开源大模型，正在大数据领域掀起一场深刻的变革。其强大的数据处理和分析能力，为各行业带来了新的机遇和变革，推动数据与业务的深度融合。以下是DeepSeek在大数据领域的一些典型的潜在应用：1.加速数据处理与分析流程在传统的大数据应用中，数据收集、预处理和分析往往是一个繁琐且耗时的工程。DeepSeek凭借其高效的算法和强大的计算能力，极大
IoTDB智能分析节点AINode：时序数据分析的新引擎时序数据说 iotdb 数据分析数据挖掘时序数据库数据库大数据 ai
在大数据与物联网的驱动下，时序数据处理需求激增，如何高效存储、管理并实时分析海量时序数据成为技术挑战。作为专为时序数据设计的数据库，IoTDB通过引入智能分析节点（AINode），将机器学习能力原生集成到数据库中，实现了“数据存储-分析-决策”的一体化闭环。本文将深入解析AINode的核心功能、技术优势及实际应用场景。AINode：IoTDB的智能分析引擎AINode是IoTDB推出的第三种内生节
Python爬虫【五十八章】Python数据清洗与分析全攻略：从Pandas到深度学习的异常检测进阶程序员_CLUB Python入门到进阶 python 爬虫 pandas
目录背景与需求分析第一章：结构化数据清洗实战（Pandas核心技法）1.1数据去重策略矩阵1.2智能缺失值处理体系第二章：深度学习异常检测进阶2.1自动编码器异常检测（时序数据）2.2图神经网络异常检测（关系型数据）第三章：综合案例实战案例1：金融交易反欺诈系统案例2：工业传感器异常检测第四章：性能优化与工程实践4.1大数据处理加速技巧4.2模型部署方案第五章：方法论总结与展望5.1方法论框架5.
《剑指offer》-算法篇-排序小新学习屋数据结构与算法算法 leetcode 职场和发展数据结构与算法
题目最小的K个数数组中的逆序对代码实现最小的K个数题目描述：输入n个整数，找出其中最小的K个数。例如输入4,5,1,6,2,7,3,8这8个数字，则最小的4个数字是1,2,3,4,。思路：按照各种排序算法，找到排序结果的前K个数。思路1：最简单的方案，对数组进行排序，取最小的k个思路2：借鉴快速排序的思想，找partition的基准点povit，比较povit和k值的大小思路3:大数据处理的思想，
ZooKeeper在Hadoop中的协同应用：从NameNode选主到分布式锁实现码字的字节 hadoop布道师分布式 zookeeper hadoop 分布式锁
Hadoop与ZooKeeper概述Hadoop与ZooKeeper在大数据生态系统中的核心位置和交互关系Hadoop的架构与核心组件作为大数据处理的基石，Hadoop生态系统由多个关键组件构成。其核心架构主要包含HDFS（HadoopDistributedFileSystem）和YARN（YetAnotherResourceNegotiator）两大模块。HDFS采用主从架构设计，由NameNo
优查查PROB版本使用介绍，优查查官网查询入口无忧达人
优查查最新版本PROB版本上线，优查查PROB版本的查询报告更全面，同时价格还是以前的价格，优查查大数据信用查询一次的价格是30，当然这个价格只限本文介绍的渠道，渠道我会放在文末，大家自行获取即可。优查查使用起来非常的流程，可以快速查询出来我们自身有没有信用稳定，优查查官网查询入口，每个人都可以使用优查查一键查询自己的信用，只能查询自己的信用，别人的信用是查询不了的。优查查使用入口放在文末了，划到
贝融助手要交68块钱查询是合理吗？其实是很多人搞错查询渠道了无忧达人
我们都知道查询信用的平台都是需要收费，具体的收费每个平台都是不一样的，目前行业中收费基本上都是在30-100，其中大平台的收费会低一些，因为体量大可以降低自身的营业成本，这个原理和其它行业一样。贝融助手查询大数据信用收费是30（本文介绍的渠道），这个价格得益于贝融助手平台的体量，已经把价格做的非常低了，像信用行业大平台的价格基本上都是趋于行业的平均值，太高了太低了都不是正常值。贝融助手查询入口放在
深度评测：拼多多官方返利APP vs 其他返利平台，谁更胜一筹？日常购物技巧呀
购物新宠儿！拼多多官方返利APP，引领智能返利新时代。随着科技的不断发展智能化已经成为了各个领域的发展趋势。在返利领域也不例外拼多多官方返利app凭借其强大的智能技术和创新能力正引领着智能返利新时代。这款app通过大数据分析用户行为习惯精准推送符合用户需求的商品和优惠信息。让你在享受智能化服务的同时也能获得更加精准的返利回报。在繁多的返利app中，高省app凭借其独特的优势脱颖而出，成为众多用户的
阿里云服务器购买参考，适合个人和普通企业用户的阿里云服务器推荐阿里云最新优惠和活动汇总
无论是个人开发者、初创企业，还是已经成熟的公司，只要有建站，做APP，存储数据等需要就需要一台云服务器。阿里云针对不同用户的需求推出了多款云服务器产品。本文将重点介绍适合个人和普通企业用户的阿里云服务器，帮助您找到性价比最高的云计算解决方案。一、阿里云服务器的用户群体阿里云服务器的用户主要可以分为三类：个人用户、普通企业用户以及对云服务器性能有特殊需求的集团型企业级用户。对于不同类型的用户，阿里云
AI浪潮涌，数据库“融合智能”奏响产业新乐章可涵不会debug AI赋能人工智能数据库
一、场景重塑产业格局：数据库“融合进化”AI浪潮奔涌而至，数字产业格局加速重构。云计算、移动互联、万物互联（IoT）、人工智能（AI）等技术的深度融合与快速落地，正以前所未有的速度重塑着企业的应用形态。新业务场景层出不穷——从高并发的在线交易、实时精准的分析决策，到海量物联网设备监控、基于图关系的风控反欺诈，再到AI驱动的智能推荐与内容生成，应用场景的多样性与复杂性已突破传统数据库的能力边界。这对
链表也能整容？聊聊‘重排链表’的那些小技巧与深层逻辑 Echo_Wish LeetCode极客营链表数据结构
“链表也能整容？聊聊‘重排链表’的那些小技巧与深层逻辑”今天我们不聊大数据，不聊AI，咱回归算法的“原点”——链表。别看它简单，里面的很多技巧在面试、在工程开发里都能救你一命。今天我就带你聊聊重排链表（ReorderList），以及它背后的思路和一些值得深挖的细节。1.先说说“重排链表”到底是啥？简单来说：给你一个单链表，比如：1->2->3->4->5要求你把它重新排列成：1->5->2->4-
朋友圈点赞也能造假？社交媒体数据欺诈识别的那些事
“朋友圈点赞也能造假？社交媒体数据欺诈识别的那些事”咱们先聊个现实点的：你刷朋友圈、微博、抖音的时候，有没有发现一些账号的点赞数、评论数特别整齐划一？要么都是那种无意义的“支持”“666”，要么一夜之间视频播放量暴涨，看着就不太对劲。其实，这背后很可能就是数据欺诈，而且这种现象在社交媒体上特别常见。作为一个做大数据分析的人，我最直观的感受就是：社交媒体上的数据从来不是完全干净的，里面水分多得很。如
云成本管理技术深度解析：核心原理与最佳实践 TechVision大咖圈云成本管理成本优化云计算自动化运维预算控制资源管理
在这个"云"满天飞的时代，钱包也跟着飞？别慌！本文带你深入云成本管理的世界，让你的云账单不再成为"惊喜"。关键词:云成本管理、成本优化、云计算、资源管理、预算控制、自动化运维文章目录1.引言：云成本管理的重要性2.云成本管理核心原理2.1成本可见性原理2.2资源优化原理2.3预算控制原理3.技术架构深度解析3.1数据收集层3.2分析处理层3.3决策执行层4.最佳实践指南4.1成本监控体系建设4.2
数据库融合进化：AI驱动下的数字化转型新纪元颜颜yan_ 前沿科技产品测评数据库人工智能
一、场景重塑产业格局：数据库“融合进化”AI浪潮奔涌而至，数字产业格局加速重构。云计算、移动互联、万物互联（IoT）、人工智能（AI）等技术的深度融合与快速落地，正以前所未有的速度重塑着企业的应用形态。新业务场景层出不穷——从高并发的在线交易、实时精准的分析决策，到海量物联网设备监控、基于图关系的风控反欺诈，再到AI驱动的智能推荐与内容生成，应用场景的多样性与复杂性已突破传统数据库的能力边界。这对
融合与智能：AI时代数据库的演进新范式与产业格局重塑意疏测评人工智能数据库
一、场景重塑产业格局：数据库“融合进化”AI浪潮奔涌而至，数字产业格局加速重构。云计算、移动互联、万物互联（IoT）、人工智能（AI）等技术的深度融合与快速落地，正以前所未有的速度重塑着企业的应用形态。新业务场景层出不穷——从高并发的在线交易、实时精准的分析决策，到海量物联网设备监控、基于图关系的风控反欺诈，再到AI驱动的智能推荐与内容生成，应用场景的多样性与复杂性已突破传统数据库的能力边界。这对
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开

组件	节点	默认端口	配置	用途说明
HDFS	DataNode	50010	dfs.datanode.address	datanode服务端口，用于数据传输
HDFS	DataNode	50075	dfs.datanode.http.address	http服务的端口
HDFS	DataNode	50475	dfs.datanode.https.address	https服务的端口
HDFS	DataNode	50020	dfs.datanode.ipc.address	ipc服务的端口
HDFS	NameNode	50070	dfs.namenode.http-address	http服务的端口
HDFS	NameNode	50470	dfs.namenode.https-address	https服务的端口
HDFS	NameNode	8020	fs.defaultFS	接收Client连接的RPC端口，用于获取文件系统metadata信息。
HDFS	journalnode	8485	dfs.journalnode.rpc-address	RPC服务
HDFS	journalnode	8480	dfs.journalnode.http-address	HTTP服务
HDFS	ZKFC	8019	dfs.ha.zkfc.port	ZooKeeper FailoverController，用于NN HA
YARN	ResourceManager	8032	yarn.resourcemanager.address	RM的applications manager(ASM)端口
YARN	ResourceManager	8030	yarn.resourcemanager.scheduler.address	scheduler组件的IPC端口
YARN	ResourceManager	8031	yarn.resourcemanager.resource-tracker.address	IPC
YARN	ResourceManager	8033	yarn.resourcemanager.admin.address	IPC
YARN	ResourceManager	8088	yarn.resourcemanager.webapp.address	http服务端口
YARN	NodeManager	8040	yarn.nodemanager.localizer.address	localizer IPC
YARN	NodeManager	8042	yarn.nodemanager.webapp.address	http服务端口
YARN	NodeManager	8041	yarn.nodemanager.address	NM中container manager的端口
YARN	JobHistory Server	10020	mapreduce.jobhistory.address	IPC
YARN	JobHistory Server	19888	mapreduce.jobhistory.webapp.address	http服务端口
HBase	Master	60000	hbase.master.port	IPC
HBase	Master	60010	hbase.master.info.port	http服务端口
HBase	RegionServer	60020	hbase.regionserver.port	IPC
HBase	RegionServer	60030	hbase.regionserver.info.port	http服务端口
HBase	HQuorumPeer	2181	hbase.zookeeper.property.clientPort	HBase-managed ZK mode，使用独立的ZooKeeper集群则不会启用该端口。
HBase	HQuorumPeer	2888	hbase.zookeeper.peerport	HBase-managed ZK mode，使用独立的ZooKeeper集群则不会启用该端口。
HBase	HQuorumPeer	3888	hbase.zookeeper.leaderport	HBase-managed ZK mode，使用独立的ZooKeeper集群则不会启用该端口。
Hive	Metastore	10002	hive.server2.webui.port	Hive2.0才有的WEBUI的配置
Hive	Metastore	9083	hive.metastore.uris	/etc/default/hive-metastore中export PORT=来更新默认端口
Hive	HiveServer	10000	/etc/hive/conf/hive-env.sh中export HIVE_SERVER2_THRIFT_PORT=来更新默认端口
ZooKeeper	Server	2181	/etc/zookeeper/conf/zoo.cfg中clientPort=	对客户端提供服务的端口
ZooKeeper	Server	2888	/etc/zookeeper/conf/zoo.cfg中server.x=[hostname]:nnnnn[:nnnnn]，标蓝部分	follower用来连接到leader，只在leader上监听该端口。
ZooKeeper	Server	3888	/etc/zookeeper/conf/zoo.cfg中server.x=[hostname]:nnnnn[:nnnnn]，标蓝部分	用于leader选举的。只在electionAlg是1,2或3(默认)时需要。