SPARK-SQL 第6页

Spark-SQL概述、特点|DataFrame简介|DataSet简介|SparkSession

Spark-SQLSparkSQL是Spark用于结构化数据(structureddata)处理的Spark模块。与基本的SparkRDDAPI不同，SparkSQL的抽象数据类型为Spark提供了关于数据结构和正在执行的计算的更多信息。在内部，SparkSQL使用这些额外的信息去做一些额外的优化，有多种方式与SparkSQL进行交互，比如:SQL和DatasetAPI。当计算结果的时候，使用的是

SmallScorpion·2020-08-11 05:21

大数据学习之路84-SparkSQL基本使用与RDD对比（涉及自定义排序）

我们使用spark-sql，会加快我们的开发效率，在spark底层会把我们所写的sql转换成RDD去执行。得到我们想要的结果。

爱米酱·2020-08-11 05:48

Spark-SQL中DataFrame与DataSet的互操作|DataFrame转为DataSet|Dataset转为DataFrame|RDD、DataFrame和DataSet之间的关系

DataFrame转为DataSet使用as方法，转成Dataset，这在数据类型是DataFrame又需要针对各个字段处理时极为方便。在使用一些特殊的操作时，一定要加上importspark.implicits._不然toDF、toDS无法使用。valdf=spark.read.json("/opt/module/spark-local/examples/src/main/resources/p

SmallScorpion·2020-08-11 05:56

【大数据学习】之用spark-sql和spark-shell操作hive里面的表数据

SparkSQL与Hive的交互有两种方式，一种是spark-sql,另一种是spark-shell。

奔走觅衣粮·2020-08-11 03:11

Spark 读写Hive 表

Spark操作Hive可以采用两种方式，一种是在Spark-sql中操作Hive表，另一种是通过Hive的MetaStore在IDEA中操作Hive表，接下来分别介绍这两种方式Spark-Shell操作

Nice_N·2020-08-11 02:02

SPARK-SQL 读取外部数据源 csv文件的读写

准备person.json文件{"name":"Michael","age":29}{"name":"Andy","age":30}{"name":"Justin","age":19}csv文件读写操作示例importorg.apache.spark.sql.*;importorg.apache.spark.sql.types.DataTypes;importorg.apache.spark.sq

小哇666·2020-08-10 12:52

spark-sql读写elasticsearch的坑

//写elasticsearch的代码ds.write.format("org.elasticsearch.spark.sql").option("es.nodes.wan.only","true").option("es.mapping.id","_id").option("es.mapping.exclude","_id").option("es.nodes",host).option("es

隔壁寝室老吴·2020-08-09 23:40

已解决：spark报错SecurityException：class javax.servlet.FilterRegistration冲突

更新一下由于我的代码引入了spark-sql，他自己带有hadoop的传递依赖，而我又自己引入了和传递依赖不同版本的hadoop，所以冲突了可以在spark-sql依赖中加入标签排除冲突的hadoop依赖

我拿Buff，谢谢·2020-08-06 11:58

Spark-SQL官网翻译--Getting Started

SparkSQL,DataFramesandDatasetsGuideSparkSQLisaSparkmoduleforstructureddataprocessing.UnlikethebasicSparkRDDAPI,theinterfacesprovidedbySparkSQLprovideSparkwithmoreinformationaboutthestructureofboththed

s127838498·2020-08-04 00:22

Yarn-Client 模式下执行spark任务， Error initializing SparkContext. Failed to connect to driver!

redhat7.3系统大数据集群4台机器--集群外1台机器通过集群外的机器向大数据集群提交spark-sql任务，任务如下：任务执行失败。

Ru_ach·2020-08-03 20:27

Spark-Sql源码解析之六 PrepareForExecution: spark plan -> executed Plan

在SparkPlan中插入Shuffle的操作，如果前后2个SparkPlan的outputPartitioning不一样的话，则中间需要插入Shuffle的动作，比分说聚合函数，先局部聚合，然后全局聚合，局部聚合和全局聚合的分区规则是不一样的，中间需要进行一次Shuffle。比方说sql语句：selectSUM(id)fromtestgroupbydev_chnid其从逻辑计划转换为的物理计划如

亮亮-AC米兰·2020-08-03 08:25

Spark-Sql源码解析之三 Analyzer：Unresolved logical plan –> analyzed logical plan

Analyzer主要职责就是将通过SqlParser未能Resolved的LogicalPlan给Resolved掉。lazyvalanalyzed:LogicalPlan=analyzer.execute(logical)//分析过的LogicalPlanprotected[sql]lazyvalanalyzer:Analyzer=newAnalyzer(catalog,functionRegi

亮亮-AC米兰·2020-08-03 08:24

Spark-Sql源码解析之四 Optimizer: analyzed logical plan –> optimized logical plan

Optimizer的主要职责是将Analyzer给Resolved的LogicalPlan根据不同的优化策略Batch，来对语法树进行优化，优化逻辑计划节点(LogicalPlan)以及表达式(Expression)，也是转换成物理执行计划的前置。它的工作原理和analyzer一致，也是通过其下的batch里面的Rule[LogicalPlan]来进行处理的。objectDefaultOptimi

亮亮-AC米兰·2020-08-03 08:53

spark-sql执行流程分析

spark-sql架构图1图1是sparksql的执行架构，主要包括逻辑计划和物理计划几个阶段，下面对流程详细分析。

weixin_34187822·2020-08-03 07:43

Spark-Sql源码简单走读

简述自从Spark统一了RDD和DataFrame(DataSet)后，批处理上对DataFrame的使用频率上也大大超过了原始RDD，同样的SparkSql的使用也越来越频繁，因此对其中的执行过程进行简单了解是必不可少的，本文就对SparkSql源码进行简单的流程走读，涉及复杂内容的地方做到知其作用目的即可，不予深究。从一条sql开始在新版本中，SparkSession早已经作为统一入口，下面就

御街打码·2020-08-03 05:08

Spark SQL的执行计划

SparkSQL的架构实例分析spark-sql>explainextendedselect*fromempeinnerjoindeptdone.deptno=d.deptnowheree.deptno

senga07·2020-08-03 00:27

spark-sql cli模式下driver内存溢出

采用spark-sql启动编程，编写sql执行，但是数据量很少，不到一百条，执行时显示内存溢出,并且是已经显示stage进度条；如果是在编译过程中提示内存溢出，极有可能是driver内存分配的太小，而sql

yala说·2020-08-02 23:26

Spark-Sql源码解析之五 Spark Planner：optimized logical plan –> spark plan

前面描述的主要是逻辑计划，即sql如何被解析成logicalplan，以及logicalplan如何被analyzer以及optimzer，接下来主要介绍逻辑计划如何被翻译成物理计划，即SparkPlan。lazyvalsparkPlan:SparkPlan={SparkPlan.currentContext.set(self)planner.plan(optimizedPlan).next()}

亮亮-AC米兰·2020-08-02 21:25

Spark-SQL 在字节跳动的应用实践

本文来自6月16日上海Spark+AI16thMeetup，参见https://www.slidestalk.com/m/35。分享者白泉，字节跳动数据平台工程师，专注于Spark/Hive在企业内的平台化服务化建设以及SparkSQL引擎的优化。面对大量复杂的数据分析需求，提供一套稳定、高效、便捷的企业级查询分析服务具有重大意义。本次演讲介绍了字节跳动基于SparkSQL建设大数据查询统一服务T

Hadoop技术博文·2020-07-31 15:03

Spark-Streaming与Spark-Sql整合实现实时股票排行---通过kafka列队数据

Spark-Streaming与Spark-Sql整合实现实时股票排行---通过kafka列队数据，前端数据通过kafka队列传递，外层还有flume的实时收集。

kwu_ganymede·2020-07-30 15:31

Java版SparkStreaming读取Kafka实现实时的单词统计

1.开发工具：IDEA2.sbt依赖：version:="0.1"scalaVersion:="2.11.8"libraryDependencies+="org.apache.spark"%%"spark-sql

cy_wtt_ysys·2020-07-30 14:45

使用Azkaban调度执行spark-sql任务的小Demo

1、准备数据准备表dm_action_log数据如下：bdp_dayactionuv20190101click1117320190101exit1110920190101install1113920190101launch1108320190101login1122020190101page_enter_h51101620190101page_enter_native1107620190101pa

塔城就是个弟弟·2020-07-30 05:34

Sentry ： Spark-sql 读取hive数据权限问题

经测试Spark-sql只支持Sentry表、库权限，不支持Sentry对Hive列权限读的控制，设置列权限读，Spark-sql是无权限读取的对hive表某一列有读权限设置代码如下，jast_column

jast_zsh·2020-07-29 02:48

spark+hive运行时没有写权限

当使用spark连接hive时，无论是通过spark-submit提交作业，还是使用spark-shell,spark-sql都会报以下错误：Exceptioninthread"main"java.lang.RuntimeException

yangbosos·2020-07-29 01:45

大数据SQL执行工具调研总结

下面是这几天来我对于hiveonmr/hiveonspark/impala/presto/spark-sql做的调研之后做的总结，见以下矩阵：武器库优点缺点HiveSql支持度UDF支持hiveonmr

唔系小老虎·2020-07-29 00:35

spark-sql之 Caused by: MetaException(message:Version information not found in metastore. )

试着使用spark-sql访问hive表，启动后spark-sql--driver-class-path/home/hadoop/bigdata/hive/lib/mysql-connector-java.jar

Heavbird·2020-07-28 23:10

spark-sql中数据类型比较（double vs decimal）

为什么80%的码农都做不了架构师？>>>1、创建表，数据类型是double和decimalcreateexternaltabletmp.tmp_test(amt1double,amt3decimal(20,8))STOREDASparquetlocation'hdfs://reh/user/hive/dev/tmp_dev/tmp_test';2、测试数据为“111111.1232”，查询显示正常

weixin_33964094·2020-07-28 18:21

SPARK-SQL内置函数之时间日期类

转载请注明转自：http://www.cnblogs.com/feiyumo/p/8760846.html一、获取当前时间1.current_date获取当前日期2018-04-092.current_timestamp/now()获取当前时间2018-04-0915:20:49.247二、从日期时间中提取字段1.year,month,day/dayofmonth,hour,minute,seco

weixin_30886233·2020-07-28 17:09

presto,dremio,spark-sql与ranger的整合记录

dremio,spark-sql,presto和ranger的整合当前，ranger没有现成的插件来管理dremio,spark-sql,presto。

weixin_30420305·2020-07-28 16:27

spark-sql性能优化之——多线程实现多Job并发执行

直接上代码valspark=SparkSession.builder().appName("name").master("local[2]").getOrCreate()valdf=spark.read.json("src\\main\\resources\\json.txt")df.show()//没有多线程处理的情况，连续执行两个Action操作，生成两个Jobdf.rdd.saveAsTex

weixin_30407613·2020-07-28 16:46

spark on yarn的理解

最近在安装调测CDH5.5,发现官方文档明确不支持spark-sql（需要自己去编译）和sparkR。

富兰克林008·2020-07-28 04:42

spark-sql操作array和map和struct类型数据

原文链接（很nice的一篇文章）：https://blog.csdn.net/wang_wbq/article/details/79678168数组\列表array、字典map这两种数据类型的索引首先我们还是先构造数据结构与DataFrame：scala>caseclassA(a:String,b:Int)definedclassAscala>caseclassB(c:List[A],d:Map[

Morgan_Mu·2020-07-28 04:39

spark-sql只显示默认数据库default问题

通过命令行在hive命令，在命令行showdatabases;显示初了default库之外数据库（正常）当是在spark安装目录下bin启动spark-sql只是显示default；查看好多配置配置文件

sz_jack·2020-07-28 00:12

Spark-Sql数组array类型转string

小白鸽·2020-07-27 19:30

spark-sql性能优化之——动态实现多个列应用同一个函数

在对一个dataframe的多个列实现应用同一个函数时，是否能动态的指定？例如：对A,B,C三列实现分组统计1.初始化spark，构建DFvalspark=SparkSession.builder().appName("name").master("local[2]").getOrCreate()valdf=spark.read.json("src\\main\\resources\\json.t

weixin_30539625·2020-07-27 13:52

Spark kyro Serialization

spark-sql中默认使用的是kyro的序

breeze_lsw·2020-07-27 12:13

spark-sql手动动态指定控制台输出日志级别

转载来自：https://blog.csdn.net/xueba207/article/details/50436684/搜了很多，还是这个靠谱，记录下（1）首先配置好spark，hadoop，hive的权限，然后来到A用户，配置好环境变量（2）把spark/conf/log4j.properties.template复制到A用户家目录（改名为log4j.properties），修改:为如下：（3

人蠢多读书·2020-07-16 06:03

spark-sql操作hive和hdfs

情况一：spark-sql直接操作hive样例数据head-5u.user1|24|M|technician|857112|53|F|other|940433|23|M|writer|320674|24

老赵家的大姑娘·2020-07-16 06:27

spark-sql 控制台修改日志级别

spark-sql控制台修改日志级别这个我找了好久的解决方法修改文件conf/log4j.properties#Seteverythingtobeloggedtotheconsolelog4j.rootCategory

小晨ll·2020-07-16 04:23

spark-sql中文字符使用问题

那么在spark-sql环境，只要正确的字符集编码和正确的客户端语言环境设置，显示，使用中文，完全不是困难。

富兰克林008·2020-07-16 04:05

spark-sql cli客户端搭建

网上关于spark-sql的资料很少，刚开始用spark-sqlcli时我也好奇怎么还能使用这样的方式？

yala说·2020-07-15 22:24

Spark-SQL运行流程

SprakSQL也是有lazy特性的，当你调用sql()执行SQL语句时，默认执行第一步-->>就是用SqlParser组件对SQL生成一个UnresolvedLogicalPlan（调用了SqlParser的apply()方法，通过语法解析器，将SQL各部分组装成LogicalPlan，它是一课语法树---Tree）然后将UL和SQLContext自身的实例(this)，封装为一个DataFra

S_Running_snail·2020-07-15 18:17

Spark-sql支持的sql语法

版本：1.3.0protectedvalABS=Keyword("ABS")protectedvalALL=Keyword("ALL")protectedvalAND=Keyword("AND")protectedvalAPPROXIMATE=Keyword("APPROXIMATE")protectedvalAS=Keyword("AS")protectedvalASC=Keyword("ASC

Rosen_Luo·2020-07-15 18:55

Spark调优 | Spark SQL参数调优

前言SparkSQL里面有很多的参数，而且这些参数在Spark官网中没有明确的解释，可能是太多了吧，可以通过在spark-sql中使用set-v命令显示当前spark-sql版本支持的参数。

seagle01·2020-07-15 16:51

Spark-SQL导出查询结果的两种方式

为了分析数据的需要，我们需要导出Spark-SQL的查询结果，通过SparkSQLCLI有两种方式。

蚁方阵·2020-07-15 16:10

Spark SQL 客户端查询

首先打开shell，会发现在bin目录下会有一个叫spark-sql,那除了用spark-sql外，还可以用spark-shell，那它们有什么区别呢，spark-sql仅仅类似于hive客户端，只是支持

one111a·2020-07-15 14:24

调整spark-sql控制台日志输出级别

问题：每次spark-sql操作都会打印大量的INFO信息，这样我们查看结果就会很麻烦，解决：调整Spark日志级别的配置文件是在$SPARK_HOME/conf/目录下的log4j.properties.template

jiezou12138·2020-07-15 14:52

在Shell 中 Spark-SQL 的调试

对于熟悉Scala开发的人来说，对于spark-sql的使用，直接jar包中写入代码处理就能轻松实现动态语句的执行。

张超_·2020-07-14 22:17

Spark-Streaming与Spark-Sql整合实现实时股票排行---通过kafka列队数据

Spark-Streaming与Spark-Sql整合实现实时股票排行---通过kafka列队数据，前端数据通过kafka队列传递，外层还有flume的实时收集。

rolin-刘瑞·2020-07-13 14:41

hive优化十大原则

hive在极大数据或者数据不平衡等情况下，表现往往一般，因此也出现了presto、spark-sql等替代品。今天不谈其它，就来说说关于hive，个人的一点心得。

Simon_Sun_1984·2020-07-13 14:06

推荐频道

SPARK-SQL

Spark-SQL概述、特点|DataFrame简介|DataSet简介|SparkSession

大数据学习之路84-SparkSQL基本使用与RDD对比（涉及自定义排序）

Spark-SQL中DataFrame与DataSet的互操作|DataFrame转为DataSet|Dataset转为DataFrame|RDD、DataFrame和DataSet之间的关系

【大数据学习】之 用spark-sql和spark-shell操作hive里面的表数据

Spark 读写Hive 表

SPARK-SQL 读取外部数据源 csv文件的读写

spark-sql读写elasticsearch的坑

已解决：spark报错SecurityException：class javax.servlet.FilterRegistration冲突

Spark-SQL官网翻译--Getting Started

Yarn-Client 模式下执行spark任务， Error initializing SparkContext. Failed to connect to driver!

Spark-Sql源码解析之六 PrepareForExecution: spark plan -> executed Plan

Spark-Sql源码解析之三 Analyzer：Unresolved logical plan –> analyzed logical plan

Spark-Sql源码解析之四 Optimizer: analyzed logical plan –> optimized logical plan

spark-sql执行流程分析

Spark-Sql源码简单走读

Spark SQL的执行计划

spark-sql cli模式下driver内存溢出

Spark-Sql源码解析之五 Spark Planner：optimized logical plan –> spark plan

Spark-SQL 在字节跳动的应用实践

Spark-Streaming与Spark-Sql整合实现实时股票排行---通过kafka列队数据

Java版SparkStreaming读取Kafka实现实时的单词统计

使用Azkaban调度执行spark-sql任务的小Demo

Sentry ： Spark-sql 读取hive数据 权限问题

spark+hive运行时没有写权限

大数据SQL执行工具调研总结

spark-sql之 Caused by: MetaException(message:Version information not found in metastore. )

spark-sql中数据类型比较（double vs decimal）

SPARK-SQL内置函数之时间日期类

presto,dremio,spark-sql与ranger的整合记录

spark-sql性能优化之——多线程实现多Job并发执行

spark on yarn的理解

spark-sql操作array和map和struct类型数据

spark-sql只显示默认数据库default问题

Spark-Sql数组array类型转string

spark-sql性能优化之——动态实现多个列应用同一个函数

Spark kyro Serialization

spark-sql手动动态指定控制台输出日志级别

spark-sql操作hive和hdfs

spark-sql 控制台修改日志级别

spark-sql中文字符使用问题

spark-sql cli客户端搭建

Spark-SQL运行流程

Spark-sql支持的sql语法

Spark调优 | Spark SQL参数调优

Spark-SQL导出查询结果的两种方式

Spark SQL 客户端查询

调整spark-sql控制台日志输出级别

在Shell 中 Spark-SQL 的调试

Spark-Streaming与Spark-Sql整合实现实时股票排行---通过kafka列队数据

hive优化十大原则

【大数据学习】之用spark-sql和spark-shell操作hive里面的表数据

Sentry ： Spark-sql 读取hive数据权限问题