E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
SparkSQL
-简介
一概览
SparkSQL
是Spark用来处理结构化数据的一个模块。与基础的SparkRDDAPI不同的是,
SparkSQL
提供了查询结构化数据及计算结果等信息的接口。
Anbang713
·
2020-08-02 21:45
大数据/Spark/Spark
SQL
spark sql 执行流程
在前面的文章《spark基础(上篇)》和《spark基础(下篇)》里面已经介绍了spark的一些基础知识,知道了
sparksql
是spark中一个主要的框架之一。
大数据系统工程师
·
2020-08-02 21:40
Spark
SQL
Spark SQL and DataFrame for Spark 1.3
SparkSQL
andDataFrameGuide启动StartShell[
[email protected]
]$.
wind520
·
2020-08-02 21:25
Spark
Spark源码系列(九)Spark SQL初体验之解析过程详解
一个月前就打算更新
SparkSql
的内容了,因为一些别的事情耽误了,今天就简单写点,Spark1.2马上就要出来了,不知道变动会不会很大,据说添加了很多的新功能呢,期待中...首先声明一下这个版本的代码是
weixin_34178244
·
2020-08-02 21:21
Spark DataFrame的groupBy vs groupByKey
在使用
SparkSQL
的过程中,经常会用到groupBy这个函数进行一些统计工作。
weixin_33849942
·
2020-08-02 21:13
Spark SQL Catalyst源码分析之Physical Plan
/**
SparkSQL
源码分析系列文章*/前面几篇文章主要介绍的是
sparksql
包里的的
sparksql
执行流程,以及Catalyst包内的SqlParser,Analyzer和Optimizer,最后要介绍一下
OopsOutOfMemory
·
2020-08-02 21:47
spark
Spark
SQL源码分析系列
Spark SQL 源码分析之Physical Plan 到 RDD的具体实现
/**
SparkSQL
源码分析系列文章*/接上一篇文章
SparkSQL
Catalyst源码分析之PhysicalPlan,本文将介绍PhysicalPlan的toRDD的具体实现细节:我们都知道一段sql
OopsOutOfMemory
·
2020-08-02 21:47
spark
Spark
SQL源码分析系列
Spark SQL 总结整理(二):Spark SQL 解析流程、工作原理
SparkSQL
对SQL语句的处理和关系型数据库类似,即词法/语法解析、绑定、优化、执行。
super_man_0820
·
2020-08-02 20:21
#
SparkSQL
spark sql 2.3 源码解读 - 架构概览 (1)
sparksql
的前身是shark,类似于hive,用户可以基于spark引擎使用sql语句对数据进行分析,而不用去编写程序代码。
sddyljsx
·
2020-08-02 20:33
Spark
Spark
Sql
2.3源码解读
Spark SQL源码剖析之SqlParser解析
而且更多的人越来越倾向使用SQL,将复杂的问题简单化处理,避免编写大量复杂的逻辑代码,所以我们想是不是可以开发一款类似Hive的工具,将其思想也应用在Spark之上,建立SQL来处理一些离线计算场景,由于
SparkSQL
不清不慎
·
2020-08-02 20:06
Spark
Spark源码剖析与调优
Spark SQL源码解析(四)Optimization和Physical Planning阶段解析
SparkSQL
原理解析前言:
SparkSQL
源码剖析(一)SQL解析框架Catalyst流程概述
SparkSQL
源码解析(二)Antlr4解析Sql并生成树
SparkSQL
源码解析(三)Analysis
zzzzMing
·
2020-08-02 20:00
大数据
Spark SQL源码剖析(一)SQL解析框架Catalyst流程概述
SparkSQL
模块,主要就是处理跟SQL解析相关的一些内容,说得更通俗点就是怎么把一个SQL语句解析成Dataframe或者说RDD的任务。
zzzzMing
·
2020-08-02 20:00
大数据
Spark SQL组件源码分析
功能Spark新发布的
SparkSQL
组件让Spark对SQL有了别样于Shark基于Hive的支持。
iteye_13202
·
2020-08-02 20:24
Spark SQL源码解析(五)SparkPlan准备和执行阶段
SparkSQL
原理解析前言:
SparkSQL
源码剖析(一)SQL解析框架Catalyst流程概述
SparkSQL
源码解析(二)Antlr4解析Sql并生成树
SparkSQL
源码解析(三)Analysis
zzzzMing
·
2020-08-02 20:10
大数据
大数据计算
Spark DataFrame 的 groupBy vs groupByKey
在使用
SparkSQL
的过程中,经常会用到groupBy这个函数进行一些统计工作。
zzzzMing
·
2020-08-02 20:38
大数据计算
大数据
主流开源SQL(on Hadoop)总结,不断改进的Hive始终遥遥领先
本文涵盖了6个开源领导者:Hive、Impala、
SparkSQL
、Drill、HAWQ以及Presto,还加上Calcite、Kylin、Phoenix、Tajo和Trafodion。
HAOXUAN168
·
2020-08-02 15:44
大数据学习
SparkSQL
中自定义聚合(UDAF)函数
的时候我们已经了解到当内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:userdefinedfunction)用户自定义函数类别分为以下三种:1).UDF:输入一行,返回一个结果(一对一),在上篇案例使用
SparkSQL
ysjh0014
·
2020-08-02 14:48
大数据
Spark
全面解析SQL on Hadoop中用到的主要技术
考虑到系统使用的广泛程度与成熟度,在具体举例时一般会拿Hive和Impala为例,当然在调研的过程中也会涉及到一些其他系统,如
SparkSQL
,Presto,TAJO等。
程序の之道
·
2020-08-02 14:21
Spark SQL的底层执行流程
说到
SparkSQL
,我们不得不提到它的优化器(Catalyst),Catalyst是
Sparksql
的核心,它是针对于
SparkSQL
语句执行过程中的查询优化框架。
蓝色校服的岁月
·
2020-08-02 14:14
Spark
SQL的转换流程
Spark入门实战系列--6.
SparkSQL
(上)--
SparkSQL
简介
【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取1、
SparkSQL
的发展历程1.1HiveandShark
SparkSQL
的前身是Shark,给熟悉RDBMS
weixin_33695450
·
2020-08-02 14:53
Spark Sql执行原理介绍
SparkSQL
整体架构从上图可见,无论是直接使用SQL语句还是使用DataFrame,都会经过如下步骤转换成DAG对RDD的操作1)Parser解析SQL,生成UnresolvedLogicalPlan
fir_dameng
·
2020-08-02 14:06
大数据开发
sparksql
的sql实现原理
SQL语句首先通过Parser模块被解析为语法树,此棵树称为UnresolvedLogicalPlan;UnresolvedLogicalPlan通过Analyzer模块借助于Catalog中的表信息解析为LogicalPlan;此时,Optimizer再通过各种基于规则的优化策略进行深入优化,得到OptimizedLogicalPlan;优化后的逻辑执行计划依然是逻辑的,并不能被Spark系统理
周英俊520
·
2020-08-02 13:19
Spark
七.
SparkSQL
之Dataset实战演练
一.概述Dataset是一个分布式的数据集,并且是spark1.6版本的新接口,有点就是强类型,支持lambda表达式,还提供了
SparkSQL
优化的执行引擎的优点.解释:针对SQL而言:seletcnamefromperson
飞翔的小宇宙
·
2020-08-02 13:52
Spark
SQL
sparkSql
执行原理
2.Analyzer阶段3.Optimizer阶段物理计划(Physicalplan)
SparkSql
的架构设及实现从
sparkSql
到生成RDD的执行.spark内部实现的基础框架称为Catalyst.Catalyst
刘狗
·
2020-08-02 12:51
spark
spark
spark sql 综合实例
该文主要展示的是
sparksql
例子(内容是找了份oracle的例子,翻译成
sparksql
的)1、需要准备好四张表,既四个文本文件逗号分隔2、为这四张表创建好schema,并注册成表3、时间处理有小部分改动准备的四张表
数据萌新
·
2020-08-01 14:09
使用IDEA工具练习
SparkSql
前言
SparkSQL
是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。
小刘学编程
·
2020-08-01 06:54
适合小白入门的IDEA开发
SparkSQL
详细教程
写在前面:博主是一名软件工程系大数据应用开发专业大二的学生,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/,博客主页:https://ali
Alice菌
·
2020-08-01 06:28
#
Spark
scala的面向对象,继承与特质
3、
SparkSQL
:类似于hive和pig。数据分析引擎。sql语句提交到spark集群中运行。4、SparkStreaming:类似于stor
weixin_30682415
·
2020-08-01 03:39
scala的面向对象,类与构造器
3、
SparkSQL
:类似于hive和pig。数据分析引擎。sql语句提交到spark集群中运行。4、SparkStreaming:类似于stor
track sun
·
2020-08-01 03:04
Spark Sql-Sql on Hive
Sparksql
-sqlonhiveSpark1.0添加了sql模块。对hive的hiveql也提供了良好的支持。本章主要介绍spark如何对hql进行支持的。
raincoffee
·
2020-08-01 00:17
Apache Spark 2.0 在作业完成时却花费很长时间结束
比如我们使用
SparkSQL
去执行一些SQL,这个SQL在最后生成了大量的文件。然后我们可以看到,这个SQL所有的SparkJobs其实已经运行完成了,但是这个查询语句还在运行。通过日志,我们可以
Nice_N
·
2020-07-31 23:37
Spark系列
76、Spark SQL之工作原理剖析以及性能优化
原理剖析
SparkSQL
工作原理剖析.png执行计划只要是在数据库类型的技术里面,比如传统的MySql、Oracle等,包括现在大数据领域的数据仓库,比如Hive,它的基本的SQL执行的模型,都是类似的
ZFH__ZJ
·
2020-07-31 21:17
使用
Sparksql
计算数据库表中某一列字段的中位数
该方法是基于
Sparksql
内置函数进行计算我先上代码:dataset和columnName作为参数,columnName是字段名,dataset是什么不说了,首先通过得到columnName字段在dataset
爱国好青年
·
2020-07-31 19:11
Sparksql
中位数
Spark-SQL 在字节跳动的应用实践
分享者白泉,字节跳动数据平台工程师,专注于Spark/Hive在企业内的平台化服务化建设以及
SparkSQL
引擎的优化。
Hadoop技术博文
·
2020-07-31 15:03
SparkSQL
:基础概念
目录
SparkSQL
1.基础概念2.DataFrame3.
SparkSql
程序开发(1.x,2.x)(1)
SparkSQL
1.x(2)
SparkSQL
2.x
SparkSQL
1.基础概念
SparkSQL
是
Icedzzz
·
2020-07-31 15:13
Spark-
SparkSQL
深入学习系列十(转自OopsOutOfMemory)
/**
SparkSQL
源码分析系列文章*/前面讲到了
SparkSQL
In-MemoryColumnarStorage的存储结构是基于列存储的。
07H_JH
·
2020-07-31 11:50
大数据框架
由一条SQL分析
SparkSQL
执行过程(二)
b.name,SUM(clk_pv)ASclk_pvFROMlogaJOINuserbONa.uid=b.uidWHEREa.fr='android'GROUPBYa.uid,b.name在上一部分,我们分析了
SparkSQL
阿海与蜗牛
·
2020-07-31 10:17
电商大数据分析模块的设计和概念
网站的运营数据指标技术类型a.早期主要编写hadoop的mapreduceb.现在感觉采用基于mapreduce实现的hive进行分析c.目前也开始采用基于内存的技术框架spark(sparkcore
sparksql
击水三千里
·
2020-07-30 19:44
云计算/大数据
SparkSQL
结合SparkStreaming,使用SQL完成实时计算中的数据统计
SparkSQL
结合SparkStreaming,使用SQL完成实时计算中的数据统计主题SQL
SparkSQL
实时计算关键字:
SparkSQL
、SparkStreaming、SQL、实时计算Flume+
zhangshucheng129
·
2020-07-30 18:48
大数据
sparkSQL
入门
一、概述
SparkSQL
是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。为什么要学习
SparkSQL
?
pxjwfy
·
2020-07-30 18:22
Flink on zeppelin第三弹UDF的使用
不管是在
sparksql
或者hive中都支持用户自定义UDF的使用,虽然Flink提供了很多内置的UDF可以直接使用,但是一些特定的场景可能需要我们自定义UDF去实现,这篇文章会主要介绍一下在Flinkonzeppelin
JasonLee'blog
·
2020-07-30 18:50
sparkstreaming结合
sparksql
-2.x实时向hive中写数据
今天主要来介绍一下
SparkSql
,2.x新版本操作hive的一个写法.
SparkSQL
的功能之一是执行SQL查询.
SparkSQL
也能够被用于从已存在的Hive环境中读取数据废话不多说,直接上代码:packagesparkimportjava.io.Fileimportjava.utilimportkafka
JasonLee'blog
·
2020-07-30 18:20
Spark
hive
sparkstreaming实时写入hive后合并小文件问题
今天主要来说一下
sparksql
写入hive后小文件太多,影响查询性能的问题.在另外一篇博客里面也稍微提到了一下,但还是感觉要单独说一下,首先我们要知道hive里面文件的数量=executor-cores
JasonLee'blog
·
2020-07-30 18:20
Spark
hive
Spark-编程执行Spark SQL查询
首先在maven项目的pom.xml中添加
SparkSQL
的依赖。
绛门人
·
2020-07-30 18:57
spark
Spark SQL之核心源码分析
目录一:DataFramelazy特性二:HiveContext.sql()SQL起始三:SQLContext.executeSql()正式执行四:
SparkSQL
具体转换解析分析一:DataFramelazy
威少SOS
·
2020-07-30 17:47
#
Spark
SQL
spark 将dataframe数据写入Hive分区表
从spark1.2到spark1.3,
sparkSQL
中的SchemaRDD变为了DataFrame,DataFrame相对于SchemaRDD有了较大改变,同时提供了更多好用且方便的API。
weixin_33939843
·
2020-07-30 17:56
Spark SQL源码分析之核心流程
/**
SparkSQL
源码分析系列文章*/自从去年SparkSubmit2013MichaelArmbrust分享了他的Catalyst,到至今1年多了,
SparkSQL
的贡献者从几人到了几十人,而且发展速度异常迅猛
OopsOutOfMemory
·
2020-07-30 17:10
spark
Spark
SQL源码分析系列
SparkSQL
/SparkStreaming读写Hive/Mysql/Hbase/Kafka
鸣谢:如果您觉得本文对您有帮助,请点赞和收藏,Thanks。Spark读写Hive/Mysql/Hbase/Kafka一、工具类、配置类(一)SparkUtils(SparkSession启动类)(二)ConnectUtils(连接/配置参数工具类)二、MysqltoHive三、HbasetoHive四、HivetoHive五、KafkatoHive/Hbase/Kafka(一)KafkatoHi
我的笨毛毛
·
2020-07-30 17:33
spark
[spark]
SparkSQL
知识点全集整理
SparkSQL
是一个用于处理结构化数据的spark组件,主要强调的是“结构化”,让开发者少写代码、降低开发成本、提升数据分析执行效率、shark是
SparkSQl
的前身。
蛮子72
·
2020-07-30 17:48
大数据
spark
sparkSQL
连接读取Oracle数据库
类似于mysql的连接方式,不过稍有细节差别。1.Oracle数据库在安装后一般会在$ORACLE_HOME/jdbc/lib目录中放置ojdbc*.jar等jar文件,将这些文件复制到spark集群服务器上,比如$SPARK_HOME/jars/中,然后修改CLASSPATH=$SPARK_HOME/jars/ojdbc6.jar:$CLASSPATH2.重启jupyternotebook3.连
thinklog2018
·
2020-07-30 16:11
上一页
41
42
43
44
45
46
47
48
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他