E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
官方教程:Apache Kylin和Superset集成,使用开源组件,完美打造OLAP系统
Superset提供了两种分析数据源的方式:1.用户可以以单表形式直接查询多种数据源,包括Presto、Hive、Impala、
SparkSQL
、MySQL、Postgres、Oracle、Redshift
ducode
·
2020-08-03 07:11
Spark修炼之道(进阶篇)——Spark入门到精通:第九节 Spark SQL运行流程解析
1.整体运行流程使用下列代码对
SparkSQL
流程进行分析,让大家明白LogicalPlan的几种状态,理解
SparkSQL
整体执行流程//scisanexistingSparkContext.valsqlContext
weixin_33979363
·
2020-08-03 07:03
Catalyst揭秘 Day6 Physical plan解析
Catalyst揭秘Day6Physicalplan解析物理计划是Spark和
Sparksql
相对比而言的,因为
SparkSql
是在Sparkcore上的一个抽象,物理化就是变成RDD,是
SparkSql
weixin_33908217
·
2020-08-03 06:50
Spark DataFrame 的 groupBy vs groupByKey
在使用
SparkSQL
的过程中,经常会用到groupBy这个函数进行一些统计工作。
weixin_33709219
·
2020-08-03 06:35
Spark的DataFrame的窗口函数使用
作者:Syn良子出处:http://www.cnblogs.com/cssdongl转载请注明出处
SparkSQL
这块儿从1.4开始支持了很多的窗口分析函数,像row_number这些,平时写程序加载数据后用
weixin_30667649
·
2020-08-03 06:19
sparksql
和hive集成
########################################alterdatabasehivecharactersetlatin1;ALTERTABLEhive.*DEFAULTCHARACTERSETlatin1;########################################1.安装hiveCREATEUSER'hive'@'%'IDENTIFIEDBY'1
王树民
·
2020-08-03 06:21
spark
Spark SQL 列名带点的处理方法
SparkSQL
列名带点的处理方法版权声明:本文为博主原创文章,未经博主允许不得转载。
海角Q
·
2020-08-03 06:06
Spark
SQL
Spark
scala
Spark
SQL使用笔记
Spark SQL表达式解析器-Scala Parser与Antlr4
SparkSQL
表达式解析器-ScalaParser与Antlr4版权声明:本文为博主原创文章,未经博主允许不得转载。
海角Q
·
2020-08-03 06:05
Spark
SQL
scala
Spark
SQL使用笔记
Spark SQL内核剖析(二)
本文参考了《
SparkSQL
内核剖析》(朱峰、张韶全、黄明等著)的目录结构和内容,这本书主要集中在对SQL内核实现的剖析上,从源码实现上学习分布式计算和数据库领域的相关技术,非常值得有相关需求的专业人士学习和购买
丧心病狂の程序员
·
2020-08-03 06:07
spark
Spark
SQL原理及应用方法
Spark SQL内核剖析(一)
本文参考了《
SparkSQL
内核剖析》(朱峰、张韶全、黄明等著)的目录结构和内容,这本书主要集中在对SQL内核实现的剖析上,从源码实现上学习分布式计算和数据库领域的相关技术,非常值得有相关需求的专业人士学习和购买
丧心病狂の程序员
·
2020-08-03 06:07
spark
Spark
SQL原理及应用方法
Spark SQL Catalyst源码分析之TreeNode Library
/**
SparkSQL
源码分析系列文章*/前几篇文章介绍了
SparkSQL
的Catalyst的核心运行流程、SqlParser,和Analyzer,本来打算直接写Optimizer的,但是发现忘记介绍TreeNode
OopsOutOfMemory
·
2020-08-03 05:25
spark
Spark
SQL源码分析系列
Spark SQL Catalyst源码分析之Analyzer
/**
SparkSQL
源码分析系列文章*/前面几篇文章讲解了
SparkSQL
的核心执行流程和
SparkSQL
的Catalyst框架的SqlParser是怎样接受用户输入sql,经过解析生成UnresolvedLogicalPlan
OopsOutOfMemory
·
2020-08-03 05:25
spark
Spark
SQL源码分析系列
Spark SQL 源码分析系列文章
从决定写
SparkSQL
源码分析的文章,到现在一个月的时间里,陆陆续续差不多快完成了,这里也做一个整合和索引,方便大家阅读,这里给出阅读顺序:)第一篇
SparkSQL
源码分析之核心流程第二篇
SparkSQL
Catalyst
OopsOutOfMemory
·
2020-08-03 05:25
spark
Spark
SQL源码分析系列
Spark SQL Catalyst源码分析之UDF
/**
SparkSQL
源码分析系列文章*/在SQL的世界里,除了官方提供的常用的处理函数之外,一般都会提供可扩展的对外自定义函数接口,这已经成为一种事实的标准。
OopsOutOfMemory
·
2020-08-03 05:25
spark
Spark
SQL源码分析系列
Spark SQL Catalyst源码分析之SqlParser
/**
SparkSQL
源码分析系列文章*/
SparkSQL
的核心执行流程我们已经分析完毕,可以参见
SparkSQL
核心执行流程,下面我们来分析执行流程中各个核心组件的工作职责。
OopsOutOfMemory
·
2020-08-03 05:54
spark
Spark
SQL源码分析系列
spark
sql
spark
分布式计算
sql
catalyst
分布式空间分析引擎-Simba架构分析与源码阅读之总体架构
它基于
SparkSQL
框架进行扩展,针对空间场景进行了一系列的算法研究和工程优化,在spatialjoin领域相对geospark、SpatialHadoop、HadoopGIS等空间分析引擎具有一定的优势
airfan92
·
2020-08-03 05:34
#
SparkSQL
内核解析之逻辑计划
SparkSQL
逻辑计划概述逻辑计划阶段被定义为LogicalPlan类,主要有三个阶段:由
SparkSql
Parser中的AstBuilder将语法树的各个节点转换为对应LogicalPlan节点,组成未解析的逻辑算子树
大数据技术与架构
·
2020-08-03 05:03
使用
sparksql
读取mysql中的数据
1.使用
sparksql
读取MySQL中的数据,读取整张表的时候,代码如下valconf=newSparkConf().setAppName("
SparkSql
running..............
疯狂的程序猿88888
·
2020-08-03 05:29
spark项目实战总结
spark sql和catalyst实例结合源码分析
这周关注了一下
sparksql
和catalyst,看了一下相关资料和各种社区内的动态,特此总结:
sparksql
和catalyst为什么会出现?
egraldloi
·
2020-08-03 05:24
spark
scala
hadoop
Spark-Sql源码简单走读
简述自从Spark统一了RDD和DataFrame(DataSet)后,批处理上对DataFrame的使用频率上也大大超过了原始RDD,同样的
SparkSql
的使用也越来越频繁,因此对其中的执行过程进行简单了解是必不可少的
御街打码
·
2020-08-03 05:08
Spark-Sql源码
Hadoop的数据分析引擎:Hive
数据分析的引擎:1、Hive--->属于Hadoop,支持SQLPig--->属于Hadoop,支持PigLatin2、
SparkSQL
--->类似Hive,支持SQL和DSL3、(了解)Impala一
小鹏求知
·
2020-08-03 05:53
大数据Hadoop
SparkSQl
通过JDBC读取外部数据源的数据
Spark版本:2.2.0通过JDBC配置可以读取Mysql、Oracle、Gbase、Hive等数据库的数据,JDBC配置选项如下:配置名称含义url要连接的JDBCURL。dbtable应该读取的JDBC表。请注意,FROM可以使用在SQL查询的子句中有效的任何内容。例如,您也可以在括号中使用子查询,而不是完整的表。driver用于连接到此URL的JDBC驱动程序的类名。partitionCo
在路上_JD
·
2020-08-03 05:03
数据库
Spark
第61课:
SparkSQl
数据加载和保存内幕深度解密实战学习笔记
第61课:
SparkSQl
数据加载和保存内幕深度解密实战学习笔记本期内容:1
SparkSQL
加载数据2
SparkSQL
保存数据3
SparkSQL
对数据处理的思考操作
SparkSQL
主要就是操作DataFrame
梦飞天
·
2020-08-03 04:28
Spark
sparksql
源码解析(执行计划)
[TOC]1.groupby查询selectcount(*),sum(o_totalprice),o_orderpriorityfromdefault.orderswhereo_orderkey>100groupbyo_orderpriority"==ParsedLogicalPlan=='Aggregate['o_orderpriority],[unresolvedalias((count(1)
bigdatar
·
2020-08-03 04:25
sparksql
spark sql 2.3 源码解读 - antlr4 &&
SparkSql
Parser (2.3)
接着上一节,继续讲。还是以SELECTA.BFROMA为例。屏幕快照2018-08-12下午5.00.15查看AstBuilder逻辑,遍历访问,最终会访问到querySpecification节点:overridedefvisitQuerySpecification(ctx:QuerySpecificationContext):LogicalPlan=withOrigin(ctx){valfro
sddyljsx
·
2020-08-03 04:02
spark sql 2.3 源码解读 - antlr4 &&
SparkSql
Parser (2.2)
接着上一节,我们看一下antlr4。antlr可以根据输入自动生成语法树并可视化的显示出来的开源语法分析器。ANTLR—AnotherToolforLanguageRecognition,其前身是PCCTS,它为包括Java,C++,C#在内的语言提供了一个通过语法描述来自动构造自定义语言的识别器(recognizer),编译器(parser)和解释器(translator)的框架。参考此文:ht
sddyljsx
·
2020-08-03 04:01
Spark
Spark
Sql
2.3源码解读
spark sql 2.3 源码解读 - antlr4 &&
SparkSql
Parser (2.1)
接着上一篇文章,本章将介绍第1步:sql语句经过SqlParser解析成UnresolvedLogicalPlan当我们执行:valsqlDF=spark.sql("SELECTnameFROMpeopleorderbyname")看一下sql函数:defsql(sqlText:String):DataFrame={Dataset.ofRows(self,sessionState.sqlParse
sddyljsx
·
2020-08-03 04:31
spark SQL(11)sql语句执行流程源码
spark通常这样开始执行一条SQL语句:valspark_sess=SparkSession.builder().appName("
SparkSQL
basicexample").config("spark.sql.shuffle.partitions
Rover Ramble
·
2020-08-03 04:07
Hadoop生态
《
SparkSQL
内核剖析》【基础篇】
一、从SQL到RDD1.一个简单的例子样例数据test.json{"name":"上海滩","singer":"叶丽仪","album":"香港电视剧主题歌","path":"mp3/shanghaitan.mp3"},{"name":"一生何求","singer":"陈百强","album":"香港电视剧主题歌","path":"mp3/shanghaitan.mp3"},{"name":"红日
renqHIT
·
2020-08-03 04:19
Spark
Spark SQL源码函数解读及UDF/UDAF例子 spark研习第六集
四、
SparkSQL
源码函数解读1.
SparkSQL
内置函数解密与实战
SparkSQL
的DataFrame引入了大量的内置函数,这些内置函数一般都有CG(CodeGeneration)功能,这样的函数在编译和执行时都会经过高度优化
简约AI
·
2020-08-03 04:17
spark
Spark SQL 结构化数据文件处理 详解
SparkSQL
简介
SparkSQL
是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象结构叫做DataFrame的数据模型(即带有Schema信息的RDD),
SparkSQL
作为分布式SQL
庸俗的情怀
·
2020-08-03 04:12
Spark
/
Scala
spark笔记之DataSet
它集中了RDD的优点(强类型和可以用强大lambda函数)以及使用了
SparkSQL
优化的执行引擎。
我是楠楠
·
2020-08-03 03:52
技术文章
大数据学习之路86-使用广播变量结合Spark Sql实现Ip地理位置匹配
{DataFrame,Dataset,SparkSession}/***使用广播变量结合
SparkSql
实现Ip地理位置匹配*C
爱米酱
·
2020-08-03 03:50
大数据生态圈从入门到精通
SpringBoot+
SparkSQL
操作JSON字符串
在SpringBoot中通过maven来做包管理构建,有几个地方需要注意一下的,需要解决包之间的冲突,否则运行时会报错:(1)
sparkSQL
中需要先排除两个包:org.apache.sparkspark-sql
NBI大数据可视化分析
·
2020-08-03 03:17
大数据
BI
商业智能
kafka
数据流
消息队列
springboot
人工智能
可视化分析
Spark SQL:RDD、DataFrame和DataSet的区别,相互转化、
SparkSql
中的UDF、 UDAF函数
一、RDD、DataFrame、DataSet1.RDDRDD,全称为ResilientDistributedDatasets,即分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可以并行计算的集合。在Spark中,对数据的所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。每个RDD都被分为多个分区,这些分区运行在集群中的不同的节点上。RDD可以包
曹雪朋
·
2020-08-03 02:32
spark
SparkSQL
源代码:GlobalTempView与LocalTempView
简介:GlobalTempView与LocalTempView有什么区别呢?一般情况,我们直接使用createTempView(tablename)但是我查看源代码,发现createTempView(viewName:String)调用了createTempViewCommand(viewName,replace=false,global=false)@throws[AnalysisExcepti
九师兄
·
2020-08-03 02:26
大数据-spark
Hive与
SparkSQL
别名中的区别
但是,这行代码,在
SparkSQL
中没毛病,在Hive中却执行不了。ps:我司Hive是1.2版本,
muzichichi
·
2020-08-03 02:34
sparksql
广播设置
sparksql
broadcastjoin配置:–confspark.sql.autoBroadcastJoinThreshold=31457280\一个比较不错的介绍广播的博文:https://blog.csdn.net
kehan_c
·
2020-08-03 01:16
基础知识
Spark DataFrame 添加自增id
SparkDataFrame添加自增id在用
SparkSQL
处理数据的时候,经常需要给全量数据增加一列自增ID序号,在存入数据库的时候,自增ID也常常是一个很关键的要素。
k_wzzc
·
2020-08-03 01:10
大数据
spark
Spark SQL源码解析(三)Analysis阶段分析
SparkSQL
原理解析前言:
SparkSQL
源码剖析(一)SQL解析框架Catalyst流程概述
SparkSQL
源码解析(二)Antlr4解析Sql并生成树Analysis阶段概述首先,这里需要引入一个新概念
zzzzMing
·
2020-08-03 00:27
大数据计算
spark
java
大数据
配置Tableau Desktop连接
SparkSQL
https://blog.csdn.net/Java_0605/article/details/51098879sparkodbclicense下载https://www.simba.com/product/spark-drivers-with-sql-connector/C:\ProgramFiles\SimbaSparkDriver\lib\SimbaApacheSparkODBCDriver
吃鱼的羊
·
2020-08-03 00:49
SPARK
BIEE12C
Spark SQL的执行计划
SparkSQL
的架构实例分析spark-sql>explainextendedselect*fromempeinnerjoindeptdone.deptno=d.deptnowheree.deptno
senga07
·
2020-08-03 00:27
sparkSQL
1.1入门之四:深入了解
sparkSQL
运行计划
前面两章花了不少篇幅介绍了
SparkSQL
的运行过程,很多读者还是觉得其中的概念很抽象,比如UnresolvedLogicPlan、LogicPlan、PhysicalPlan是长得什么样子,没点印象,
mmicky20110730
·
2020-08-02 23:15
spark1.1.0
spark学习路线
SparkSQL
如何把sqlText转化成RDD可以执行的tasks 系列
上图是一个通用的
SparkSQL
底层执行流程图.具体流程如下描述(上图是一个lazy函数,遇到active函数才会执行):一、
SparkSQL
通过parser(解析器),把sqlText转化成UnResolvedLogicalPlan
MichaelZhu
·
2020-08-02 22:54
大数据相关
[Spark SQL] 主要执行流程
预备知识先介绍在
SparkSQL
中两个非常重要的数据结构:Tree和Rule。
大写的UFO
·
2020-08-02 22:13
spark
Spark SQL解析过程
1.
SparkSQL
中Join的分类当前
SparkSQL
支持三种Join算法-shufflehashjoin、broadcasthashjoin以及sortmergejoin。
bigdataCoding
·
2020-08-02 22:42
Spark SQL表达式内部可用函数与相关源码
SparkSQL
表达式内部可用函数与相关源码版权声明:本文为博主原创文章,未经博主允许不得转载。
TJM2014
·
2020-08-02 22:27
SparkSql
-- DataFrame和DataSet
SparkSql
–DataFrame和DataSet1.什么是
sparksql
Hive将HiveSQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce
ITgagaga
·
2020-08-02 21:27
Spark
Spark --
SparkSql
编程
Spark–
SparkSql
编程文章目录Spark--
SparkSql
编程1.DataFrame1.1创建1.1.1通过spark的数据源创建1.1.2从RDD进行转换1.1.3从HiveTable进行查询返回
ITgagaga
·
2020-08-02 21:27
Spark
大数据
SaprkSql数据源以及Hive使用
SaprkSql数据源文章目录SaprkSql数据源1.通用数据保存方式2.json文件3.Parquest文件4.JDBC5.Hive数据库1.内嵌Hive应用2.外部Hive应用3.运行
SparkSQL
CLI4
ITgagaga
·
2020-08-02 21:20
Spark
hadoop
上一页
40
41
42
43
44
45
46
47
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他