spark题06

1.kafka收集数据的原理?
2.讲讲列式存储的 parquet文件底层格式?
3.dataset和dataframe?
4 scala中trait特征和用法?
5.redis和memcache的区别?
6.列举Spark中常见的端口,分别有什么功能?
8.Spark官网中,你常用哪几个模块?
11.yarn的原理?
14.看过源码? 你熟悉哪几个部分的源码?
15.集群上 nodemanager和ResourceManager的数量关系?
16.Spark如何处理结构化数据,Spark如何处理非结构话数据?
17.Spark性能优化主要有哪些手段?
18.简要描述Spark分布式集群搭建的步骤?
19.对于Spark你觉得他对于现有大数据的现状的优势和劣势在哪里?
20.对于算法是否进行过自主的研究设计?
21.简要描述你了解的一些数据挖掘算法与内容
22. 什么时候join不发生shuffle?
23.spark shuffle的具体过程,你知道几种shuffle方式
24.spark 如何防止内存溢出 ?
25.简述hadoop实现join的及各种方式?
26 rdd转为dataFrame两种方式?
27.列举你熟悉的内存系统,各自的优缺点?
28.Spark 中Master 实现HA有哪些方式 ?
29 函数式编程特点?
30.Sort-based shuffle的缺陷?

你可能感兴趣的:(spark题06)