Spark(26) -- SparkSQL整合hive以及sparkSQL使用

SparkSQL官方文档(3.0.1):
sql-programming-guide.html
sql-data-sources-hive-tables

在这里插入图片描述
 Spark SQL主要目的是使得用户可以在Spark上使用SQL,其数据源既可以是RDD,也可以是外部的数据源(比如文本、Hive、Json等)。Spark SQL的其中一个分支就是Spark on Hive,也就是使用Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑,可以近似认为仅将物理执行计划从MR作业替换成了Spark作业。SparkSql整合hive就是获取hive表中的元数据信息,然后通过SparkSql来操作数据

1. sparkSQL整合Hive

第一步:将hive-site.xml拷贝到spark安装路径conf目录
node03执行以下命令来拷贝hive-site.xml到所有的spark安装服务器上面去

cd /exp

你可能感兴趣的:(大数据学习,spark)