大数据开发(牛客)面试被问频率最高的几道面试题_数据开发(牛客)面试被问频率最高的几道面试题(1)

10)Reducer处理完数据,通过OutPutFormat往外写数据,形成对应文件。

简洁版:面试可手写

图片
Zookeeper

Zookeeper的选举机制

可灵活回答:

1)Zookeeper的选举策略

2)Zookeeper的选举过程

3)Zookeeper的Leader选举是如何实现的

问过的一些公司:

阿里,字节x2,腾讯,贝壳,网易,去哪儿

1)半数机制:集群中半数以上机器存活,集群可用。所以Zookeeper适合安装奇数台服务器。

2)Zookeeper虽然在配置文件中并没有指定Master和Slave。但是,Zookeeper工作时,是有一个节点为Leader,其他则为Follower,Leader是通过内部的选举机制临时产生的。

3)选举过程

假设有五台服务器组成的Zookeeper集群,它们的id从1-5,同时它们都是最新启动的,也就是没有历史数据,在存放数据量这一点上,都是一样的。假设这些服务器依序启动,来看看会发生什么。

图片
(1)服务器1启动,发起一次选举。服务器1投自己一票。此时服务器1票数一票,不够半数以上(3票),选举无法完成,服务器1状态保持为LOOKING;

(2)服务器2启动,再发起一次选举。服务器1和2分别投自己一票并交换选票信息:此时服务器1发现服务器2的ID比自己目前投票推举的(服务器1)大,更改选票为推举服务器2。此时服务器1票数0票,服务器2票数2票,没有半数以上结果,选举无法完成,服务器1,2状态保持LOOKING

(3)服务器3启动,发起一次选举。此时服务器1和2都会更改选票为服务器3。此次投票结果:服务器1为0票,服务器2为0票,服务器3为3票。此时服务器3的票数已经超过半数,服务器3当选Leader。服务器1,2更改状态为FOLLOWING,服务器3更改状态为LEADING;

(4)服务器4启动,发起一次选举。此时服务器1,2,3已经不是LOOKING状态,不会更改选票信息。交换选票信息结果:服务器3为3票,服务器4为1票。此时服务器4服从多数,更改选票信息为服务器3,并更改状态为FOLLOWING;

(5)服务器5启动,同4一样当小弟。

Hive

Hive的内部表和外部表的区别

问过的一些公司:

字节,阿里社招,快手,美团x2,蘑菇街x2,祖龙娱乐,作业帮x2,360,小米,竞技世界,猿辅导,冠群驰骋,好未来,富途

内部表(managed table):未被external修饰

外部表(external table):被external修饰

区别:

1)内部表数据由Hive自身管理,外部表数据由HDFS管理;

2)内部表的数据存储位置是hive.metastore.warehouse.dir,默认位置:/user/hive/warehouse,外部表数据的存储位置由自己制定(如果没有LOCATION,Hive将在HDFS上的/user/hive/warehouse文件夹下以外部表的表名创建一个文件夹,并将属于这个表的数据存放在这里);

3)删除内部表会直接删除元数据(metadata)及存储数据;删除外部表仅仅会删除元数据,HDFS上的文件并不会被删除;

4)对内部表的修改会将修改直接同步给元数据,而对外部表的表结构和分区进行修改,则需要修复(MSCK REPAIR TABLE table_name;)

Flume

Flume的source、channel、sink分别都有哪些

可灵活回答:

1)Flume的source、channel、sink分别用的什么类型的?

2)Flume的Kafka sink

3)Flume分为哪几块?

4)channel的类型

问过的一些公司:

阿里x2,腾讯,字节,快手x2,流利说,创略科技,宇信科技,猿辅导,转转,bigo,多益,富途x2

Flume组成架构如下图

图片
Agent

Agent是一个JVM进程,它以事件的形式将数据从源头送至目的。

Agent主要由Source、Channel、Sink3个部分组成。

Source

Source是负责接收数据到Flume Agent的组件。

图片
Channel

Channel是位于Source和Sink之间的缓冲区。因此,Channel允许Source和Sink运作在不同的速率上。Channel是线程安全的,可以同时处理几个Source的写入操作和几个Sink的读取操作。

图片
Sink

Sink不断地轮询Channel中的事件且批量地移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。

图片
Kafka

Kafka是如何实现高吞吐的

可灵活回答:

1)Kafka为什么低延迟高吞吐?

2)Kafka高吞吐的原因

3)Kafka为什么高可

你可能感兴趣的:(程序员,大数据,面试,职场和发展)