E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
SparkSQL
原文链接:
SparkSQL
—用之惜之更多精彩内容请关注笔者公众号:大数据技术宅
SparkSql
作为Spark的结构化数据处理模块,提供了非常强大的API,让分析人员用一次,就会为之倾倒,为之着迷,为之至死不渝
大数据技术宅
·
2020-03-01 21:57
通过自定义
SparkSQL
外部数据源实现
SparkSQL
读取HBase
通过自定义
SparkSQL
外部数据源实现
SparkSQL
读取HBase标签:
SparkSQL
HBaseSaprkExternalDataSourcepackagename:
sparksql
.hbaseScalaClass
walk_and_walk
·
2020-03-01 15:29
7.spark共享变量
spark共享变量1WhyApacheSpark2关于ApacheSpark3如何安装ApacheSpark4ApacheSpark的工作原理5spark弹性分布式数据集6RDD持久性7spark共享变量8
SparkSQL
9SparkStreaming
全能程序猿
·
2020-03-01 01:22
1.Spark前言
LogisticregressioninHadoopandSparkSpark核心组件Spark的核心组件有:
SparkSQL
SparkStreamingMLlib(machinelearning)G
逆流而上kiss
·
2020-02-29 10:43
Spark HiveThriftServer2启动流程源码分析
背景接触
SparkSQL
不久,查找了些别人的资料,感觉对整个SparkHiveThriftServer2流程讲的糊里糊涂的,觉得需要从Beeline连接HiveThriftServer2开始,梳理下执行
分裂四人组
·
2020-02-29 09:25
分布式数据存储系统kudu使用总结
查询速度还算中规中矩,用
sparkSQL
或者impala在上面都有不错的查询速度,至少比hbase快多了,当然前
大神带我来搬砖
·
2020-02-29 01:48
什么是spark?
目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含
SparkSQL
、SparkStreaming、Gra
mls12
·
2020-02-26 17:00
Antlr4 - 自定义
SparkSQL
解析
>Antlr4是一个强大的解析器的生成器,可以用来读取、处理、执行或翻译结构化文本,ANTLR可以从语法上来生成一个可以构建和遍历解析树的解析器,最出名的Spark计算引擎2.x就是用它来解析SQL的,是一个牛到没朋友的家伙。##IDEA测试**IDEA语法分析插件**下载[antlr-v4-grammar-plugin](https://plugins.jetbrains.com/files/7
kikiki4
·
2020-02-26 03:47
10.pyspark.sql.FrameReader
SparkSQL
和DataFrames重要的类有:pyspark.sql.SQLContext:DataFrame和SQL方法的主入口pyspark.sql.DataFrame:将分布式数据集分组到指定列名的数据框中
丫丫iii
·
2020-02-25 15:47
SparkSQL
自定义 UDF 函数median求中位数
原文:
SparkSQL
自定义UDF函数median求中位数前言我的场景:提供一个聚合组件操作Spark的DataFrame,然后支持先分组在聚合的功能,这里聚合要求支持最大值个数、求和、去重后求和、均值
程序员网址导航
·
2020-02-25 15:27
spark - sql 解析
IDEA测试IDEA语法分析插件下载antlr-v4-grammar-plugin插件安装antlr-v4-grammar分析插件g4语法文件使用的是
sparkSQL
的SqlB
大猪大猪
·
2020-02-25 03:52
sparksql
窗口函数原理
一、窗口函数是啥在单表数据操作中,一般有下面两种操作范式:针对单条数据的映射操作,例如每条数据加一的时候。将数据分组后的聚合操作,例如进行分组统计的时候。在第一种范式中有这样一种情况,当你要生成某条目标数据的时候你需要用到前后N条数据参与计算,例如当你需要基于每天的用户访问数,来计算七天的移动平均访问数,就需要按照时间排序,每一条数据的计算都需要前面6条数据一起参与计算。二、窗口函数的使用范式一般
曾二爷耶
·
2020-02-24 15:55
五分钟加简历-精通
sparksql
源码
零、序言⚪spark1.6之后引入DataSet,一种基于RDD的高级抽象,在RDD之上加入了scheme信息,给RDD的元素的每一列提供了名称和数据类型的标志。⚪同时DataSet还提供了更多的api,可以实现类似于sql的操作,而且在catalyst优化器的优化下我们的代码将更加高效。⚪其实sql最最厉害的就是将逻辑和物理执行分开,上层专注于让程序员更好的表达数据的处理逻辑,下层专注于把逻辑执
曾二爷耶
·
2020-02-24 11:49
Antlr4 - 自定义
SparkSQL
解析
>Antlr4是一个强大的解析器的生成器,可以用来读取、处理、执行或翻译结构化文本,ANTLR可以从语法上来生成一个可以构建和遍历解析树的解析器,最出名的Spark计算引擎2.x就是用它来解析SQL的,是一个牛到没朋友的家伙。##IDEA测试**IDEA语法分析插件**下载[antlr-v4-grammar-plugin](https://plugins.jetbrains.com/files/7
kikiki4
·
2020-02-23 14:15
spark sql
进入点:SparkSessionfrompyspark.sqlimportSparkSessionspark=SparkSession\.builder\.appName("Python
SparkSQL
basicexample
xncode
·
2020-02-23 04:09
[一起学Hive]之二–Hive函数大全-完整版
Hive函数大全–完整版现在虽然有很多SQLONHadoop的解决方案,像
SparkSQL
、Impala、Presto等等,但就目前来看,在基于Hadoop的大数据分析平台、数据仓库中,Hive仍然是不可替代的角色
antyzhu
·
2020-02-23 00:37
Spark SQL 自适应执行优化引擎
在本篇文章中,笔者将给大家带来
SparkSQL
中关于自适应执行引擎(SparkAdaptiveExecution)的内容。
DataFlow范式
·
2020-02-22 17:21
spark - sql 解析
IDEA测试IDEA语法分析插件下载antlr-v4-grammar-plugin插件安装antlr-v4-grammar分析插件g4语法文件使用的是
sparkSQL
的SqlB
大猪大猪
·
2020-02-21 19:21
Spark难点解析:Join实现原理
其中,join操作是最复杂、代价最大的操作类型,是大部分业务场景的性能瓶颈所在;所以,今天我们基于
SparkSQL
,来简要的聊一下
SparkSQL
所支持的几种常见的Join算法以及其适用场景。
追寻者的小憩书铺
·
2020-02-21 19:35
Spark SQL
1概述
SparkSQL
是Spark的一个组件,用于结构化数据的计算。
SparkSQL
提供一个称为DataFrames的编程对象,DataFrams可以充当分布式sql查询引擎。
起个什么呢称呢
·
2020-02-19 22:00
DriverDisassociated|Lostexecutor
昨天在
SparkSql
上执行几条涉及数据量几百G的Sql语句时频繁失败,日志中出现大量以下错误:ERRORexecutor.CoarseGrainedExecutorBackend:DriverDisassociated
牛肉圆粉不加葱
·
2020-02-19 19:24
一份超详细的 Spark 入门介绍
Spark已经形成了一套自己的生态圈,主要包括
SparkSQL
批处理/交互式查询
大数据技术架构
·
2020-02-19 10:23
Spark生态圈
Spark生态圈的五大组件:SparkCore、SparkStreaming、
SparkSQL
、SparkMLlib和SparkGraphX。
终生学习丶
·
2020-02-16 13:54
Spark SQL 编程初级实践1-Spark SQL 基本操作
SparkSQL
基本操作将下列JSON格式数据复制到Linux系统中,并保存命名为employee.json。
宥宁
·
2020-02-16 11:00
Hive数据源实战
SparkSQL
支持对Hive中存储的数据进行读写。操作Hive中的数据时,必须创建HiveContext,而不是SQLContext。
一个人一匹马
·
2020-02-16 06:35
Spark On Hive 部署和配置
SparkOnHive,通过
sparksql
模块访问和使用Hive,默认Spark预编译(pre-built)版不包含hive相关依赖,并不支持此功能,因此需要对spark源码进行重新编译,并进行相关的配置
Jogging
·
2020-02-16 03:33
Spark-1.6.1 SQL与Apache Hive SQL的兼容性
与ApacheHive的兼容性#
SparkSQL
被设计成与HiveMetastore(元数据),SerDes和UDFs兼容.目前
SparkSQL
里的HiveSerDes和UDFs是基于Hive1.2.1
日月明心
·
2020-02-15 08:34
寒假学习报告14
实验5
SparkSQL
编程初级实践一、实验目的(1)通过实验掌握
SparkSQL
的基本编程方法;(2)熟悉RDD到DataFrame的转化方法;(3)熟悉利用
SparkSQL
管理来自不同数据源的数据。
错与对并不是绝对的
·
2020-02-14 21:00
Spark相关文章索引(3)
环境部署Spark2.1.0的Standalone模式部署基本常识spark中的rdd的持久化Spark入门实战系列--9.Spark图计算GraphX介绍及实例《Spark官方文档》
SparkSQL
,
司小幽
·
2020-02-14 17:35
教程:Apache Spark SQL入门及实践指南!
Apache
SparkSQL
是一个重要的Spark模块,我们可以使用Python、Java和Scala中的DataFrame和DataSet简化结构化数据处理流程,该过程从企业收集数据并形成分布式数据集合
金乐笑
·
2020-02-14 00:45
scala linq&monad
scalalinq&monadOverview最近看
SparkSQL
,想到scala原生集合支持这么多操作,就想搞个scala的linq出来。
pcz
·
2020-02-13 22:08
如何将Apache Spark用于不同类型的大数据分析用例
了解SparkCore及加载项库,包括
SparkSQL
、SparkStreaming、GraphX、Mllib和SparkML。了解开发者在项目中使用Spark时可能需要用到的开发和测试工具。
丨程序之道丨
·
2020-02-13 15:32
Spark SQL 相关
SparkSQL
的简介1.简介
SparkSQL
是用于处理结构化数据的模块。
一生逍遥一生
·
2020-02-13 14:27
Java Spark 简单示例(三)Spark SQL
本篇开始介绍
SparkSQL
的入门示例Maven中引入org.apache.sparkspark-sql_2.112.3.1在项目根目录下新建配置文件people.json{"name":"Andy",
憨人Zoe
·
2020-02-11 22:48
[R]高性能计算SparkR
而Spark力图整合机器学习(MLib)、图算法(GraphX)、流式计算(SparkStreaming)和数据仓库(
SparkSQL
)等
HOHOOO
·
2020-02-11 20:29
hive 、mysql、
sparksql
比较
主要是通过实验比较三者的速度。数据生成Python代码importcsvimportrandomimportpymysqlif__name__=="__main__":defgetOneTraj():vme_id='S90110000'+str(random.randint(2,9))gps_time='2015-08-'+str(random.randint(10,30))+'09:29:11'
至极L
·
2020-02-11 19:14
2020寒假生活学习日记(十二)
林子雨实验五spark实验(五)--
SparkSQL
编程初级实践(1)一、实验目的(1)通过实验掌握
SparkSQL
的基本编程方法;(2)熟悉RDD到DataFrame的转化方法;(3)熟悉利用
SparkSQL
Double晨
·
2020-02-11 11:00
Spark SQL2.X 在100TB上的Adaptive execution(自适应执行)实践
SparkSQL
AdaptiveExecutionAdaptiveexecutioninSpark-9850
SparkSQL
是ApacheSpark最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据
尼小摩
·
2020-02-10 09:16
【Spark】DataSource API
SparkDatasourceAPISparkDatasourceAPI是一套连接外部数据源和Spark引擎的框架它主要是给Spark框架提供一种快速读取外界数据的能力,它可以方便地把不同的数据格式通过DataSourceAPI注册成Spark的表,然后通过
SparkSQL
PowerMe
·
2020-02-10 07:10
Spark SQL
SparkSQL
解决了什么问题这个之前,先说下Hive,Hive有自己的语言HiveSQL(HQL),利用sql语句查询,然后走的是MapReduce程序,提交到集群上运行.这样的话有个很大的优势,那就是它相比
终生学习丶
·
2020-02-08 22:36
spark实验(五)--Spark SQL 编程初级实践(1)
一、实验目的(1)通过实验掌握
SparkSQL
的基本编程方法;(2)熟悉RDD到DataFrame的转化方法;(3)熟悉利用
SparkSQL
管理来自不同数据源的数据。
Halone
·
2020-02-08 22:00
Spark中的RDD和DataFrame
使得
SparkSQL
得以洞察更多的结构信息,从而对藏于DataFrame背后的数据源以及作用于
哈萨K
·
2020-02-08 16:00
如何使用Spark连接与操作Mysql数据库
如何使用Spark连接与操作Mysql数据库JDBC介绍
SparkSQL
可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame,通过对DataFrame一系列的计算后,还可以将数据再写回关系型数据库中
Togogo_net
·
2020-02-08 07:42
spark日常问题
1/在hue运行
sparksql
报java.io.IOException:Failedtocreatelocaldirin/tmp/blockmgr-adb70127-0a28-4256-a205-c575acc74f9d
锋锋2019
·
2020-02-07 16:00
Spark介绍和集群模式搭建
Spark提供了大数据处理的一站式解决方案,以SparkCore为基础推出了
SparkSQL
、SparkStreaming、MLlib、GraphX、SparkR等组件。
零度沸腾_yjz
·
2020-02-07 13:30
[译]Spark SQL Start(2.4.3)
原文地址:https://spark.apache.org/docs/latest/sql-programming-guide.htmlOverView
SparkSQL
是用于处理结构化数据的spark模块
阿亚2011
·
2020-02-07 08:08
Spark SQL 访问Hbase
@[toc]参考文档:https://hbase.apache.org/book.html#_
sparksql
_dataframes简介hbase-sparkintegration使用了Spark-1.2.0
阿亚2011
·
2020-02-07 07:57
Spark Sql 源码剖析(三):Analyzer
当一条sql语句被
SparkSql
Parser解析为一个unresolvedlogicalPlan后,接下来就会使用Analyzer进行resolve。
牛肉圆粉不加葱
·
2020-02-07 03:20
[译]Spark SQL 访问json和jdbc数据源
sparksql
可以从很多数据源中读写数据,比较常用的是json文件和可使用jdbc协议的数据库.访问json数据官方文档:https://spark.apache.org/docs/latest/sql-data-sources-json.html
阿亚2011
·
2020-02-07 00:48
Spark-shell交互式编程--林子雨Spark实验四(1)
1.该系总共有多少学生vallines=sc.textFile("file:///usr/local/spark/
sparksql
data/Data01.txt")valpar=lines.map(row
daisy99lijing
·
2020-02-06 22:00
上一页
57
58
59
60
61
62
63
64
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他