E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
Spark SQL
本文介绍Spark用来操作结构化和半结构化数据的接口——
SparkSQL
。结构化数据是指任何有结构信息的数据。所谓结构信息,就是每条记录共用的已知的字段集合。
tracy_668
·
2020-08-05 22:35
spark DataFrame学习手册
sparkDataFrame学习手册本文spark为2.0.0编程语言为java概述
SparkSQL
是Spark用来处理结构化数据的一个模块。
如果少年
·
2020-08-05 21:16
大数据
Java
Spark SQL 中 dataFrame 学习总结
DataFrame提供了详细的结构信息,可以让
sparkSQL
清楚的知道数据集中包含哪些列,列的名称和类型各是什么?RDD是分布式的Java对象的集合。DataFrame是分布式的Row对象的集合。
weixin_34377919
·
2020-08-05 20:18
spark自定义函数之——UDF使用详解及代码示例
前言本文介绍如何在
SparkSql
和DataFrame中使用UDF,如何利用UDF给一个表或者一个DataFrame根据需求添加几列,并给出了旧版(Spark1.x)和新版(Spark2.x)完整的代码示例
weixin_30892889
·
2020-08-05 20:36
比较impala,
SparkSql
,Hive以及交互式查询,OLAP概念
SparkSQL
:适用场景:从Hive数据仓库中抽
Share-Get
·
2020-08-05 20:14
技术比较
Spark SQL与DataFrame详解以及使用
Spark一站式的解决方案使得大数据技术快速发展,其中,最核心的部分当然也包括
SparkSQL
,它简单,常用,高效。
不清不慎
·
2020-08-05 19:01
Spark
大数据
sparkSQL
学习记录之二
在
SPARKSQL
中也可以运行SQL语句来生成DataFrame。
mask_deeply
·
2020-08-05 19:43
spark
Spark学习总结——
SparkSQL
、DataFrame详解代码示例
Shark概念:Shark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎,由于底层的计算采用了Spark,性能比MapReduce的Hive普遍快2倍以上,当数据全部load在内存的话,将快10倍以上,因此Shark可以作为交互式查询应用服务来使用。除了基于Spark的特性外,Shark是完全兼容Hive的语法,表结构以及UDF函数等,已有的HiveSql可以直接进行迁移至Shar
System_FFF
·
2020-08-05 17:44
大数据进阶之路
关于Spark SQL外部表在实战中遇到的问题
笔者之前写过一篇关于
SparkSQL
外部表的比较全面的学习实验博客,参https://blog.csdn.net/u011817217/article/details/92403843本篇旨在描述和总结在实际工作中使用
GulfMoon
·
2020-08-05 02:57
Spark
用Spark进行实时流计算
RDDs的DstreamAPI,每个时间间隔内的数据为一个RDD,源源不断对RDD进行处理来实现流计算ApacheSpark在2016年的时候启动了StructuredStreaming项目,一个基于
SparkSQL
实时计算
·
2020-08-05 02:05
spark
spark-streaming
Spark从入门到精通27:Spark SQL:开窗函数实战
Spark1.4.x版本以后,为
SparkSQL
和DataFrame引入了开窗函数,比如最经典,最常用的,row_number(),可以让我们实现分组取topn的逻辑。
勇于自信
·
2020-08-05 00:55
day63-Spark SQL下Parquet内幕深度解密
DT大数据梦工厂联系方式:新浪微博:www.weibo.com/ilovepains/微信公众号:DT_Spark博客:http://.blog.sina.com.cn/ilovepains一:
sparkSQL
黄色沙琪玛
·
2020-08-04 22:38
spark
大数据课程30天掌握 spark内存计算(python )-徐培成-专题视频课程
spark内存计算(python)—16625人已学习课程介绍本部分内容全面涵盖了Spark生态系统的概述及其编程模型,深入内核的研究,SparkonYarn,SparkStreaming流式计算原理与实践,
SparkSQL
十八掌教育
·
2020-08-04 22:31
视频教程
Hive高阶之Beeline与JDBC
之前的hive基础知识部分的笔记都是以hiveclient为基础的,如果想用其他的工具比如jdbc、
sparksql
来使用hive就需要启动HiveServer2,
xjjdlut
·
2020-08-04 22:44
大数据
hive
spark sql——6. spark sql操作hbase
目标:在hbase建一张表,使用
sparksql
操作它参考:https://blog.csdn.net/eyeofeagle/article/details/84571756https://blog.csdn.net
ant_yi
·
2020-08-04 21:23
spark(scala)
Hive beeline和Spark SQL兼容Hive – 配置
Hivebeeline和
SparkSQL
兼容Hive–配置备注:如果你是用hive的api去连,那么就需要打开Hivebeeline,如果是用
sparkSQL
就需要开启spark的ThriftServerHivebeeline
没有合适的昵称
·
2020-08-04 21:46
hive
hive,shark,
sparkSQL
,hive on spark,impala,drill比较
2019独角兽企业重金招聘Python工程师标准>>>HiveonMapreduceHive的原理大家可以参考这篇大数据时代的技术hive:hive介绍,实际的一些操作可以看这篇笔记:新手的Hive指南,至于还有兴趣看Hive优化方法可以看看我总结的这篇Hive性能优化上的一些总结HiveonMapreduce执行流程执行流程详细解析Step1:UI(userinterface)调用execute
weixin_34146805
·
2020-08-04 20:34
若泽大数据--玩转大数据之Spark入门到实战--专题视频课程
课程收益全面涵盖了Spark生态系统的概述及其编程模型,深入内核的研究,SparkonYarn,SparkStreaming流式计算原理与实践,
SparkSQL
,Spark的多语言编程以及SparkR的原理和运行
ruozedata
·
2020-08-04 17:24
视频教程
dataframe及sql
sparksql
运行架构:
SparkSQL
语句的顺序为:1.对读入的SQL语句进行解析(Parse),分辨出SQL语句的关键词(如SELECT、FROM、WHERE并判断SQL语句的合法性;2.将SQL
忘了时间的朱
·
2020-08-04 17:23
python
26.大数据学习之旅——Spark调优&源码解读&
SparkSQL
入门
Spark调优—上篇更好的序列化实现Spark用到序列化的地方1)Shuffle时需要将对象写入到外部的临时文件。2)每个Partition中的数据要发送到worker上,spark先把RDD包装成task对象,将task通过网络发给worker。3)RDD如果支持内存+硬盘,只要往硬盘中写数据也会涉及序列化。默认使用的是java的序列化。但java的序列化有两个问题,一个是性能相对比较低,另外它
零零天
·
2020-08-04 17:20
大数据学习之旅
大数据
spark
Spark--
SparkSql
--spark.sql.warehouse.dir使用详解
文章目录使用场景详解当使用本地操纵调试hive代码的时候当在集群操纵hive代码的时候总结:使用场景适用于当使用
sparksql
操作hive数据库中的数据的时候,用该参数指定数据存放的位置详解使用hive
一只生活丰富的程序猿
·
2020-08-04 17:13
spark
【Spark】Spark SQL原理、编译、配置及运行方式详述
1、
SparkSQL
的发展历史(1)在Hadoop中运行SQL的工具在Hadoop中运行SQL的工具有Hive、Impala、ApacheDrill、Presto、
SparkSQL
等。
魏晓蕾
·
2020-08-04 14:26
BigData
BigData
Components
SQL数据分析概览——Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto+druid
本文涵盖了6个开源领导者:Hive、Impala、
SparkSQL
、Drill、HAWQ以及Presto,还加上Calcite、Kylin、Phoenix、Tajo和Trafodion。
djph26741
·
2020-08-04 14:32
Ambari Spark 集成 Hive 失败。spark sql创建的表hive看不到,hive创建的表 spark看不到
sparksql
创建的表hive看不到,hive创建的表spark看不到解决:登录Ambari界面,到Spark组件修改配置。
rookie_bigdata
·
2020-08-04 12:33
Ambari
spark sql 查询表时报错:。。。 not a file
现象:
sparksql
查询表时报错:。。。
rookie_bigdata
·
2020-08-04 12:33
spark
启动spark服务,解决端口占用的踩坑过程及使用Phoenix操作hbase数据表
前言在尝试运行
sparksql
,发现spark服务没有启动,且发现其端口占用!问题处理过程在liunx系统中,搜索以下是否有spark服务?
阿啄debugIT
·
2020-08-04 10:04
解决方案
研读
大数据
Phoenix操作hbase
启动spark服务
运行sparksql
修改hive的端口
Phoenix集群启动
使用Spark进行实时流计算的方法
RDDs的DstreamAPI,每个时间间隔内的数据为一个RDD,源源不断对RDD进行处理来实现流计算ApacheSpark在2016年的时候启动了StructuredStreaming项目,一个基于
SparkSQL
·
2020-08-04 09:43
用Spark进行实时流计算
RDDs的DstreamAPI,每个时间间隔内的数据为一个RDD,源源不断对RDD进行处理来实现流计算ApacheSpark在2016年的时候启动了StructuredStreaming项目,一个基于
SparkSQL
品途旅游
·
2020-08-04 09:27
编程语言
.Net
用Spark进行实时流计算
RDDs的DstreamAPI,每个时间间隔内的数据为一个RDD,源源不断对RDD进行处理来实现流计算ApacheSpark在2016年的时候启动了StructuredStreaming项目,一个基于
SparkSQL
独孤风
·
2020-08-04 08:00
用Spark进行实时流计算
RDDs的DstreamAPI,每个时间间隔内的数据为一个RDD,源源不断对RDD进行处理来实现流计算ApacheSpark在2016年的时候启动了StructuredStreaming项目,一个基于
SparkSQL
实时流式计算
·
2020-08-04 08:00
spark问题与排查
1、sparkthriftserver报以下错误,其他诸如hive/
sparksql
等方式均正常ERRORActorSystemImpl:Uncaughtfatalerrorfromthread[sparkDriverActorSystem-akka.actor.default-dispatcher
jimmyxyalj
·
2020-08-04 08:52
spark
SparkSQL
简介及使用
SparkSQL
简介及使用1简介1.1什么是
SparkSQL
SparkSQL
是Spark用来处理结构化数据的一个模块,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为分布式SQL
Lan_xuaner
·
2020-08-04 07:50
spark
ERROR SparkContext: Error initializing SparkContext.java.lang.IllegalArgumentException: System memor
这是spark2.0之上的版本,也就是
sparksql
,创建配置的是时候使用SparkSession,。
码出一片蓝天白云
·
2020-08-04 06:49
SparkSQL
SparkSession
Spark之StructuredStreaming
StructuredStreaming相关学习:简介StructuredStreaming是Spark2.0版本提出的新的实时流框架,是一种基于
SparkSQL
引擎的可扩展且容错的流处理引擎。
清风笑丶
·
2020-08-04 06:55
Spark-SQL官网翻译--Getting Started
SparkSQL
,DataFramesandDatasetsGuide
SparkSQL
isaSparkmoduleforstructureddataprocessing.UnlikethebasicSparkRDDAPI
s127838498
·
2020-08-04 00:22
大数据
Spark
Sql
官网翻译
大数据
SparkSQL
编程之RDD、DataFrame、DataSet区别与共性
在
SparkSQL
中Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?
ITBOY_ITBOX
·
2020-08-03 19:02
Spark
spark shell 启动出错问题
恩,还是静心看了看错误,忽然想起前段时间使用
sparksql
从hive里面取数据来着,但是我的hive-site.xml和驱动包已经考到了对应的
fjr_huoniao
·
2020-08-03 16:55
spark
五分钟精通
sparksql
源码-加简历
#序言-spark1.6之后引入DataSet,一种基于RDD的高级抽象,在RDD之上加入了scheme信息,给RDD的元素的每一列提供了名称和数据类型的标志。-同时DataSet还提供了更多的api,可以实现类似于sql的操作,而且在catalyst优化器的优化下我们的代码将更加高效。-其实sql最最厉害的就是将逻辑和物理执行分开,上层专注于让程序员更好的表达数据的处理逻辑,下层专注于把逻辑执行
曾二爷
·
2020-08-03 10:56
大数据
SparkSQL
SQL语句解析过程源代码浅析
前两天一直在忙本职工作,最近才有时间闲下来看了一下
SparkSql
的执行过程,记录一下。主要是通过sqlContext.sql()这个方法作为一个入口。
zhouxucando
·
2020-08-03 09:33
Spark
Spark2 Dataset实现原理分析-Dataset实现原理概要
概述本文讲述
sparksql
中的dataset的组成部分,并对其创建过程进行分析。Dataset要点我们可以总结出dataset的一些要点,如下:和关系型数据表一样,Dataset是强类型的。
一 铭
·
2020-08-03 09:09
spark
大数据处理
深入浅出Spark原理
SparkSQL
源码解读1.6
总的流程入下:1.通过Sqlparse转成unresolvedLogicplan2.通过Analyzer转成resolvedLogicplan3.通过optimizer转成optimzedLogicplan4.通过sparkplanner转成physicalLogicplan5.通过prepareForExecution转成executablelogicplan6.通过toRDD等方法执行exec
夜深静处
·
2020-08-03 09:03
spark
Spark SQL|Spark,从入门到精通
SparkSQL
在Hive兼容层面仅依赖HQLparser、HiveMetastore和HiveSerDe。也就是说,从HQL被解析成抽象语法树(AST)起,就全部由
SparkSQL
接管了。
yiyidsj
·
2020-08-03 09:48
大数据
互联网
人工智能
大数据组件-
SparkSQL
:Column对象,如何创建,别名和转换,添加列,操作
1.什么是Column对象Column表示了Dataset中的一个列,并且可以持有一个表达式,这个表达式作用于每一条数据,对每条数据都生成一个值2.Column对象如何创建(1)’单引号’在Scala中是一个特殊的符号,通过’会生成一个Symbol对象,Symbol对象可以理解为是一个字符串的变种,但是比字符串的效率高很多,在Spark中,对Scala中的Symbol对象做了隐式转换,转换为一个C
程序猿与汪
·
2020-08-03 08:57
Spark
RDD和DataFrame和DataSet三者间的区别
RDDvsDataFramesvsDataSet在
SparkSQL
中Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?
乌镇风云
·
2020-08-03 07:32
Spark中DataSet的基本使用
它集中了RDD的优点(强类型和可以用强大lambda函数)以及使用了
SparkSQL
优化的执行引擎。DataSet可以通过JVM的对象进行构建,可以用函数式的转换(map/f
MC_Linlin
·
2020-08-03 07:45
spark里dataset
Spark生态相关组件介绍
Spark大厦的地基(RDD)
SparkSQL
SparkStreamingStructuredStreaming为什么需要Spark?
苝花向暖丨楠枝向寒
·
2020-08-03 07:03
大数据
RDD,Spark SQL,DF分组
distinct().collect()print(a)#年龄性别不同a=userrdd.map(lambdax:(x[1],x[2])).distinct().collect()print(a)2、
SparkSQL
NoOne-csdn
·
2020-08-03 07:31
pyspark
pyspark Window 窗口函数
参考:IntroducingWindowFunctionsin
SparkSQL
窗口函数Atitscore,awindowfunctioncalculatesareturnvalueforeveryinputrowofatablebasedonagroupofrows
NoOne-csdn
·
2020-08-03 07:30
pyspark
spark-sql执行流程分析
spark-sql架构图1图1是
sparksql
的执行架构,主要包括逻辑计划和物理计划几个阶段,下面对流程详细分析。
weixin_34187822
·
2020-08-03 07:43
Spark SQL 源代码分析之Physical Plan 到 RDD的详细实现
/**
SparkSQL
源代码分析系列文章*/接上一篇文章
SparkSQL
Catalyst源代码分析之PhysicalPlan。
weixin_34159110
·
2020-08-03 07:37
上一页
39
40
41
42
43
44
45
46
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他