Spark内容分享(二十七):阿里云基于 Spark 的云原生数据湖分析实践

目录

Spark 与云原生的结合

1. 传统 Spark 集群的痛点

2. Spark 与云原生结合的优势

Spark on K8s 原理介绍

1. Spark 的集群部署模式

2. Spark on K8s 的部署架构

3. Spark on K8s 部署架构——对比

4. Spark on K8s 社区进展

5. Spark 3.3 新特性介绍

Spark on K8s 在阿里云 EMR 上的实践

1. EMR Spark on ACK

2. 充分利用云上弹性优势

3. 使用 RSS 优化 shuffle 和动态资源

4. 使用 DLF 构建云上数据湖

5. 易用性提升

Serverless Spark 在阿里云 DLF 的实践

1. DLF 数据探索介绍

2. Serverless Spark SQL 架构

3. Spark Session 管理

4. Livy Server 的优化

5. 其他功能特性


Spark 与云原生的结合

Spark内容分享(二十七):阿里云基于 Spark 的云原生数据湖分析实践_第1张图片

1. 传统 Spark 集群的痛点

① 部署运维难度大

目前我们大家所熟悉的Spark集群都是在传统的 Hadoop 集群内部,比如CDH,或者早期的云上的EMR集群,这种全家桶式的部署方式的好处在于组件比较丰富,但是部署组件繁多,无论是安装、部署、运维都比较复杂,带来比较大的运维和人力成本。

② 弹性能力不足

这种部署模式需要比较固定的资源预估,比如跑作业需要多少 master࿰

你可能感兴趣的:(Spark,内容分享,云原生内容分享,spark,阿里云,云原生)