E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
SPARK-SQL
Spark-SQL
概述、特点|DataFrame简介|DataSet简介|SparkSession
Spark-SQLSparkSQL是Spark用于结构化数据(structureddata)处理的Spark模块。与基本的SparkRDDAPI不同,SparkSQL的抽象数据类型为Spark提供了关于数据结构和正在执行的计算的更多信息。在内部,SparkSQL使用这些额外的信息去做一些额外的优化,有多种方式与SparkSQL进行交互,比如:SQL和DatasetAPI。当计算结果的时候,使用的是
SmallScorpion
·
2020-08-11 05:21
Spark
大数据学习之路84-SparkSQL基本使用与RDD对比(涉及自定义排序)
我们使用
spark-sql
,会加快我们的开发效率,在spark底层会把我们所写的sql转换成RDD去执行。得到我们想要的结果。
爱米酱
·
2020-08-11 05:48
大数据生态圈从入门到精通
Spark-SQL
中DataFrame与DataSet的互操作|DataFrame转为DataSet|Dataset转为DataFrame|RDD、DataFrame和DataSet之间的关系
DataFrame转为DataSet使用as方法,转成Dataset,这在数据类型是DataFrame又需要针对各个字段处理时极为方便。在使用一些特殊的操作时,一定要加上importspark.implicits._不然toDF、toDS无法使用。valdf=spark.read.json("/opt/module/spark-local/examples/src/main/resources/p
SmallScorpion
·
2020-08-11 05:56
Spark
【大数据学习】之 用
spark-sql
和spark-shell操作hive里面的表数据
SparkSQL与Hive的交互有两种方式,一种是
spark-sql
,另一种是spark-shell。
奔走觅衣粮
·
2020-08-11 03:11
Spark
SQL
Spark 读写Hive 表
Spark操作Hive可以采用两种方式,一种是在
Spark-sql
中操作Hive表,另一种是通过Hive的MetaStore在IDEA中操作Hive表,接下来分别介绍这两种方式Spark-Shell操作
Nice_N
·
2020-08-11 02:02
Spark系列
SPARK-SQL
读取外部数据源 csv文件的读写
准备person.json文件{"name":"Michael","age":29}{"name":"Andy","age":30}{"name":"Justin","age":19}csv文件读写操作示例importorg.apache.spark.sql.*;importorg.apache.spark.sql.types.DataTypes;importorg.apache.spark.sq
小哇666
·
2020-08-10 12:52
#
spark
spark
spark-sql
读写elasticsearch的坑
//写elasticsearch的代码ds.write.format("org.elasticsearch.spark.sql").option("es.nodes.wan.only","true").option("es.mapping.id","_id").option("es.mapping.exclude","_id").option("es.nodes",host).option("es
隔壁寝室老吴
·
2020-08-09 23:40
已解决:spark报错SecurityException:class javax.servlet.FilterRegistration冲突
更新一下由于我的代码引入了
spark-sql
,他自己带有hadoop的传递依赖,而我又自己引入了和传递依赖不同版本的hadoop,所以冲突了可以在
spark-sql
依赖中加入标签排除冲突的hadoop依赖
我拿Buff,谢谢
·
2020-08-06 11:58
bug
其他
spark
Spark-SQL
官网翻译--Getting Started
SparkSQL,DataFramesandDatasetsGuideSparkSQLisaSparkmoduleforstructureddataprocessing.UnlikethebasicSparkRDDAPI,theinterfacesprovidedbySparkSQLprovideSparkwithmoreinformationaboutthestructureofboththed
s127838498
·
2020-08-04 00:22
大数据
Spark
Sql
官网翻译
大数据
Yarn-Client 模式下执行spark任务, Error initializing SparkContext. Failed to connect to driver!
redhat7.3系统大数据集群4台机器--集群外1台机器通过集群外的机器向大数据集群提交
spark-sql
任务,任务如下:任务执行失败。
Ru_ach
·
2020-08-03 20:27
Spark-Sql
源码解析之六 PrepareForExecution: spark plan -> executed Plan
在SparkPlan中插入Shuffle的操作,如果前后2个SparkPlan的outputPartitioning不一样的话,则中间需要插入Shuffle的动作,比分说聚合函数,先局部聚合,然后全局聚合,局部聚合和全局聚合的分区规则是不一样的,中间需要进行一次Shuffle。比方说sql语句:selectSUM(id)fromtestgroupbydev_chnid其从逻辑计划转换为的物理计划如
亮亮-AC米兰
·
2020-08-03 08:25
源码解析
Spark
Spark
SQL
1.4.1
详解
Spark-Sql
源码解析之三 Analyzer:Unresolved logical plan –> analyzed logical plan
Analyzer主要职责就是将通过SqlParser未能Resolved的LogicalPlan给Resolved掉。lazyvalanalyzed:LogicalPlan=analyzer.execute(logical)//分析过的LogicalPlanprotected[sql]lazyvalanalyzer:Analyzer=newAnalyzer(catalog,functionRegi
亮亮-AC米兰
·
2020-08-03 08:24
Spark
Spark
SQL
1.4.1
详解
Spark-Sql
源码解析之四 Optimizer: analyzed logical plan –> optimized logical plan
Optimizer的主要职责是将Analyzer给Resolved的LogicalPlan根据不同的优化策略Batch,来对语法树进行优化,优化逻辑计划节点(LogicalPlan)以及表达式(Expression),也是转换成物理执行计划的前置。它的工作原理和analyzer一致,也是通过其下的batch里面的Rule[LogicalPlan]来进行处理的。objectDefaultOptimi
亮亮-AC米兰
·
2020-08-03 08:53
Spark
Spark
SQL
1.4.1
详解
spark-sql
执行流程分析
spark-sql
架构图1图1是sparksql的执行架构,主要包括逻辑计划和物理计划几个阶段,下面对流程详细分析。
weixin_34187822
·
2020-08-03 07:43
Spark-Sql
源码简单走读
简述自从Spark统一了RDD和DataFrame(DataSet)后,批处理上对DataFrame的使用频率上也大大超过了原始RDD,同样的SparkSql的使用也越来越频繁,因此对其中的执行过程进行简单了解是必不可少的,本文就对SparkSql源码进行简单的流程走读,涉及复杂内容的地方做到知其作用目的即可,不予深究。从一条sql开始在新版本中,SparkSession早已经作为统一入口,下面就
御街打码
·
2020-08-03 05:08
Spark-Sql源码
Spark SQL的执行计划
SparkSQL的架构实例分析
spark-sql
>explainextendedselect*fromempeinnerjoindeptdone.deptno=d.deptnowheree.deptno
senga07
·
2020-08-03 00:27
spark-sql
cli模式下driver内存溢出
采用
spark-sql
启动编程,编写sql执行,但是数据量很少,不到一百条,执行时显示内存溢出,并且是已经显示stage进度条;如果是在编译过程中提示内存溢出,极有可能是driver内存分配的太小,而sql
yala说
·
2020-08-02 23:26
大数据学习
Spark-Sql
源码解析之五 Spark Planner:optimized logical plan –> spark plan
前面描述的主要是逻辑计划,即sql如何被解析成logicalplan,以及logicalplan如何被analyzer以及optimzer,接下来主要介绍逻辑计划如何被翻译成物理计划,即SparkPlan。lazyvalsparkPlan:SparkPlan={SparkPlan.currentContext.set(self)planner.plan(optimizedPlan).next()}
亮亮-AC米兰
·
2020-08-02 21:25
Spark
Spark
SQL
1.4.1
详解
Spark-SQL
在字节跳动的应用实践
本文来自6月16日上海Spark+AI16thMeetup,参见https://www.slidestalk.com/m/35。分享者白泉,字节跳动数据平台工程师,专注于Spark/Hive在企业内的平台化服务化建设以及SparkSQL引擎的优化。面对大量复杂的数据分析需求,提供一套稳定、高效、便捷的企业级查询分析服务具有重大意义。本次演讲介绍了字节跳动基于SparkSQL建设大数据查询统一服务T
Hadoop技术博文
·
2020-07-31 15:03
Spark-Streaming与
Spark-Sql
整合实现实时股票排行---通过kafka列队数据
Spark-Streaming与
Spark-Sql
整合实现实时股票排行---通过kafka列队数据,前端数据通过kafka队列传递,外层还有flume的实时收集。
kwu_ganymede
·
2020-07-30 15:31
Spark
Java版SparkStreaming读取Kafka实现实时的单词统计
1.开发工具:IDEA2.sbt依赖:version:="0.1"scalaVersion:="2.11.8"libraryDependencies+="org.apache.spark"%%"
spark-sql
cy_wtt_ysys
·
2020-07-30 14:45
使用Azkaban调度执行
spark-sql
任务的小Demo
1、准备数据准备表dm_action_log数据如下:bdp_dayactionuv20190101click1117320190101exit1110920190101install1113920190101launch1108320190101login1122020190101page_enter_h51101620190101page_enter_native1107620190101pa
塔城就是个弟弟
·
2020-07-30 05:34
spark
Sentry :
Spark-sql
读取hive数据 权限问题
经测试
Spark-sql
只支持Sentry表、库权限,不支持Sentry对Hive列权限读的控制,设置列权限读,
Spark-sql
是无权限读取的对hive表某一列有读权限设置代码如下,jast_column
jast_zsh
·
2020-07-29 02:48
sentry
spark
spark+hive运行时没有写权限
当使用spark连接hive时,无论是通过spark-submit提交作业,还是使用spark-shell,
spark-sql
都会报以下错误:Exceptioninthread"main"java.lang.RuntimeException
yangbosos
·
2020-07-29 01:45
spark
hive
大数据SQL执行工具调研总结
下面是这几天来我对于hiveonmr/hiveonspark/impala/presto/
spark-sql
做的调研之后做的总结,见以下矩阵:武器库优点缺点HiveSql支持度UDF支持hiveonmr
唔系小老虎
·
2020-07-29 00:35
分布式计算
自己总结心得
spark-sql
之 Caused by: MetaException(message:Version information not found in metastore. )
试着使用
spark-sql
访问hive表,启动后spark-sql--driver-class-path/home/hadoop/bigdata/hive/lib/mysql-connector-java.jar
Heavbird
·
2020-07-28 23:10
大数据
spark-sql
中数据类型比较(double vs decimal)
为什么80%的码农都做不了架构师?>>>1、创建表,数据类型是double和decimalcreateexternaltabletmp.tmp_test(amt1double,amt3decimal(20,8))STOREDASparquetlocation'hdfs://reh/user/hive/dev/tmp_dev/tmp_test';2、测试数据为“111111.1232”,查询显示正常
weixin_33964094
·
2020-07-28 18:21
SPARK-SQL
内置函数之时间日期类
转载请注明转自:http://www.cnblogs.com/feiyumo/p/8760846.html一、获取当前时间1.current_date获取当前日期2018-04-092.current_timestamp/now()获取当前时间2018-04-0915:20:49.247二、从日期时间中提取字段1.year,month,day/dayofmonth,hour,minute,seco
weixin_30886233
·
2020-07-28 17:09
presto,dremio,
spark-sql
与ranger的整合记录
dremio,
spark-sql
,presto和ranger的整合当前,ranger没有现成的插件来管理dremio,
spark-sql
,presto。
weixin_30420305
·
2020-07-28 16:27
spark-sql
性能优化之——多线程实现多Job并发执行
直接上代码valspark=SparkSession.builder().appName("name").master("local[2]").getOrCreate()valdf=spark.read.json("src\\main\\resources\\json.txt")df.show()//没有多线程处理的情况,连续执行两个Action操作,生成两个Jobdf.rdd.saveAsTex
weixin_30407613
·
2020-07-28 16:46
spark on yarn的理解
最近在安装调测CDH5.5,发现官方文档明确不支持
spark-sql
(需要自己去编译)和sparkR。
富兰克林008
·
2020-07-28 04:42
spark
CDH5
spark-sql
操作array和map和struct类型数据
原文链接(很nice的一篇文章):https://blog.csdn.net/wang_wbq/article/details/79678168数组\列表array、字典map这两种数据类型的索引首先我们还是先构造数据结构与DataFrame:scala>caseclassA(a:String,b:Int)definedclassAscala>caseclassB(c:List[A],d:Map[
Morgan_Mu
·
2020-07-28 04:39
spark-sql
spark-sql
只显示默认数据库default问题
通过命令行在hive命令,在命令行showdatabases;显示初了default库之外数据库(正常)当是在spark安装目录下bin启动
spark-sql
只是显示default;查看好多配置配置文件
sz_jack
·
2020-07-28 00:12
spark
Spark-Sql
数组array类型转string
原数据和表结构+----------+------------+------------+-------+--------+-----------+|train_code|station_name|station_code|is_late|late_min|arrive_date|+----------+------------+------------+-------+--------+----
小白鸽
·
2020-07-27 19:30
Spark
spark-sql
性能优化之——动态实现多个列应用同一个函数
在对一个dataframe的多个列实现应用同一个函数时,是否能动态的指定?例如:对A,B,C三列实现分组统计1.初始化spark,构建DFvalspark=SparkSession.builder().appName("name").master("local[2]").getOrCreate()valdf=spark.read.json("src\\main\\resources\\json.t
weixin_30539625
·
2020-07-27 13:52
Spark kyro Serialization
spark-sql
中默认使用的是kyro的序
breeze_lsw
·
2020-07-27 12:13
Spark
spark-sql
手动动态指定控制台输出日志级别
转载来自:https://blog.csdn.net/xueba207/article/details/50436684/搜了很多,还是这个靠谱,记录下(1)首先配置好spark,hadoop,hive的权限,然后来到A用户,配置好环境变量(2)把spark/conf/log4j.properties.template复制到A用户家目录(改名为log4j.properties),修改:为如下:(3
人蠢多读书
·
2020-07-16 06:03
大数据运维之spark日常
spark-sql
操作hive和hdfs
情况一:
spark-sql
直接操作hive样例数据head-5u.user1|24|M|technician|857112|53|F|other|940433|23|M|writer|320674|24
老赵家的大姑娘
·
2020-07-16 06:27
spark
spark
spark-sql
控制台修改日志级别
spark-sql
控制台修改日志级别这个我找了好久的解决方法修改文件conf/log4j.properties#Seteverythingtobeloggedtotheconsolelog4j.rootCategory
小晨ll
·
2020-07-16 04:23
spark
大数据
spark-sql
中文字符使用问题
那么在
spark-sql
环境,只要正确的字符集编码和正确的客户端语言环境设置,显示,使用中文,完全不是困难。
富兰克林008
·
2020-07-16 04:05
spark
spark-sql
spark-sql
cli客户端搭建
网上关于
spark-sql
的资料很少,刚开始用spark-sqlcli时我也好奇怎么还能使用这样的方式?
yala说
·
2020-07-15 22:24
spark-sql学习
Spark-SQL
运行流程
SprakSQL也是有lazy特性的,当你调用sql()执行SQL语句时,默认执行第一步-->>就是用SqlParser组件对SQL生成一个UnresolvedLogicalPlan(调用了SqlParser的apply()方法,通过语法解析器,将SQL各部分组装成LogicalPlan,它是一课语法树---Tree)然后将UL和SQLContext自身的实例(this),封装为一个DataFra
S_Running_snail
·
2020-07-15 18:17
spark
Spark-sql
支持的sql语法
版本:1.3.0protectedvalABS=Keyword("ABS")protectedvalALL=Keyword("ALL")protectedvalAND=Keyword("AND")protectedvalAPPROXIMATE=Keyword("APPROXIMATE")protectedvalAS=Keyword("AS")protectedvalASC=Keyword("ASC
Rosen_Luo
·
2020-07-15 18:55
spark
Spark调优 | Spark SQL参数调优
前言SparkSQL里面有很多的参数,而且这些参数在Spark官网中没有明确的解释,可能是太多了吧,可以通过在
spark-sql
中使用set-v命令显示当前
spark-sql
版本支持的参数。
seagle01
·
2020-07-15 16:51
spark交流
Spark-SQL
导出查询结果的两种方式
为了分析数据的需要,我们需要导出
Spark-SQL
的查询结果,通过SparkSQLCLI有两种方式。
蚁方阵
·
2020-07-15 16:10
Spark
SQL
Spark SQL 客户端查询
首先打开shell,会发现在bin目录下会有一个叫
spark-sql
,那除了用
spark-sql
外,还可以用spark-shell,那它们有什么区别呢,
spark-sql
仅仅类似于hive客户端,只是支持
one111a
·
2020-07-15 14:24
spark
调整
spark-sql
控制台日志输出级别
问题:每次
spark-sql
操作都会打印大量的INFO信息,这样我们查看结果就会很麻烦,解决:调整Spark日志级别的配置文件是在$SPARK_HOME/conf/目录下的log4j.properties.template
jiezou12138
·
2020-07-15 14:52
Spark
在Shell 中
Spark-SQL
的调试
对于熟悉Scala开发的人来说,对于
spark-sql
的使用,直接jar包中写入代码处理就能轻松实现动态语句的执行。
张超_
·
2020-07-14 22:17
SparkSQL
Spark
Spark-Streaming与
Spark-Sql
整合实现实时股票排行---通过kafka列队数据
Spark-Streaming与
Spark-Sql
整合实现实时股票排行---通过kafka列队数据,前端数据通过kafka队列传递,外层还有flume的实时收集。
rolin-刘瑞
·
2020-07-13 14:41
spark
streaming
hive优化十大原则
hive在极大数据或者数据不平衡等情况下,表现往往一般,因此也出现了presto、
spark-sql
等替代品。今天不谈其它,就来说说关于hive,个人的一点心得。
Simon_Sun_1984
·
2020-07-13 14:06
Hive
上一页
2
3
4
5
6
7
8
9
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他