数据建模能力
ETL流程与优化
存储与计算引擎
查询性能优化
-- 原查询(全表扫描)
SELECT * FROM sales WHERE date > '2023-01-01';
-- 优化后(分区裁剪+聚合下推)
SELECT product_id, SUM(amount)
FROM sales PARTITION (p_2023)
WHERE date > '2023-01-01'
GROUP BY product_id;
实时计算算法
算法模型应用
Hadoop/Spark生态
spark.shuffle.partitions
避免小文件。流处理框架
云数仓与开源方案
实时数仓架构
数据治理实践
类别 | 必刷题库 |
---|---|
SQL优化 | 慢查询改写、窗口函数应用、分区剪裁技巧 |
场景设计 | 设计实时大屏监控、用户画像标签体系、广告点击归因模型 |
源码原理 | Spark Shuffle流程、Flink状态后端、HDFS读写机制 |
项目深挖 | 准备1-2个高复杂度项目,说明技术选型对比(如Kafka vs Pulsar)、踩坑解决方案 |