Spark SQL特点

Spark SQL特点

1.Spark SQL概念

Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。
相比于Spark RDD API,Spark SQL包含了对结构化数据和在其上运算的更多信息,Spark SQL使用这些信息进行了额外的优化,使对结构化数据的操作更加高效和方便。
有多种方式去使用Spark SQL,包括SQL、DataFrames API和Datasets API。但无论是哪种API或者是编程语言,它们都是基于同样的执行引擎,因此你可以在不同的API之间随意切换。

2.Spark SQL特点

Hive,它是将Hive SQL转换成MapReduce然后提交到集群中去执行,大大简化了编写MapReduce程序的复杂性,由于MapReduce这种计算模型执行效率比较慢,所以Spark SQL应运而生,它是将Spark SQL转换成RDD,然后提交到集群中去运行,执行效率非常快!

  • 易整合
    Spark SQL特点_第1张图片
    将sql查询与spark程序无缝混合,可以使用java、scala、python、R等语言的API操作。

  • 统一的数据访问
    Spark SQL特点_第2张图片
    以相同的方式连接到任何数据源。

  • 兼容hive
    Spark SQL特点_第3张图片

  • 标准的数据连接
    Spark SQL特点_第4张图片

喜欢就点赞评论+关注吧

Spark SQL特点_第5张图片

感谢阅读,希望能帮助到大家,谢谢大家的支持!

你可能感兴趣的:(spark)