E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
Spark Structured Streaming入门编程指南
Spark结构式流编程指南概览StructuredStreaming是一个可拓展,容错的,基于
SparkSQL
执行引擎的流处理引擎。使用小量的静态数据模拟流处理。
DanielMaster
·
2020-08-24 13:58
Spark
Oozie调度Spark SQL
说明:oozieaction里面目前没有原生的像支持hiveaction一样的支持
sparksql
action,不过是支持sparkaction的,可以根据个人需求来决定是需要用sparksubmit还是本文介绍的方法
DanielMaster
·
2020-08-24 13:27
工具
oozie集成
Gank Spark
通信存储体系MemoryStore内存模型doPut()数据写入流程Block备份复制的过程任务执行计算引擎部署模式资源调度任务执行过程Standalone模式的整套流程容错机制部署模式YARNMesos
SparkSQL
SparkStreamingGraphX
gwt0425
·
2020-08-24 08:48
hadoop
一种基于
SparkSQL
的Hive数据仓库拉链表缓慢变化维(SCD2+SCD1)的示例实现
没有使用事务表的更新和删除操作(最新版本Hive已经支持,但需要Server/Client做相应配置,Hive实现的事务还有一定的局限性)Hive自身的SQL使用MapReduce引擎,速度慢,这里使用
SparkSQL
HanseyLee
·
2020-08-24 05:42
SCD
Spark
Hive
DW
数据仓库
Scala
spark2.1 新特性
在性能方面,Spark2.x有2~10倍的提升;在功能方面,
SparkSQL
中的Dataset变得成熟,Spark2.x通过Dataset重构了SparkStreaming和MLlib的API,进而使得这两个系统在易用性和性能方面有重大提升
wisgood
·
2020-08-24 04:16
spark
spark
spark2.0
spark新特性
62、Spark SQL之DataFrame的使用
SparkSQL
andDataFrame引言
SparkSQL
是Spark中的一个模块,主要用于进行结构化数据的处理。它提供的最核心的编程抽象,就是DataFrame。
ZFH__ZJ
·
2020-08-24 02:05
Spark,
SparkSql
wordCount,java wordcount
SparkSQL
版本packagecom.jiangzeyun.
sparkSQl
;importjava.util.Arrays;importjava.util.Random;importorg.apache.spark.api.java.JavaRDD
jiangzeyun
·
2020-08-24 00:36
spark
hadoop
pyspark入门---
sparksql
练习
sparksql
实验1.实验数据说明:2.实验要求3.实验内容1.实验数据说明:Student字段说明:字段名类型备注snoint学号sclassint班级号snameDate姓名sgenderint性别
魔仙大佬
·
2020-08-23 11:24
spark
Spark 3.0 新特性 之 自适应查询与分区动态裁剪
Spark憋了一年半的大招后,发布了3.0版本,新特性主要与
SparkSQL
和Python相关。这也恰恰说明了大数据方向的两大核心:BI与AI。
xing halo
·
2020-08-23 08:36
StreamingPro 支持类SQL DSL
前言受
sparksql
在喜马拉雅的使用之xql这篇文章影响,我发现类似下面这种语法是极好的://加载mysql表loadjdbc.
祝威廉
·
2020-08-23 05:11
SparkSQL
使用SQLContext读取csv文件 分析数据 (含部分数据)
前两天开始研究
SparkSQL
,其主要分为HiveContext以及SQLContext目前打算先学习SQLContent,因为Hive环境还没搭好,:oops::oops:一步一步来先把spark的原理弄明白后再去研究
zhouxucando
·
2020-08-23 04:12
Spark
SparkSQL
部分:创建dataframe的几种方式
创建dataframe的几种方式:DataFrame也是一个分布式数据容器。与RDD类似,然而DataFrame更像传统数据库的二维表格,除了数据以外,还掌握数据的结构信息,即schema。同时,与Hive类似,DataFrame也支持嵌套数据类型(struct、array和map)。从API易用性的角度上看,DataFrameAPI提供的是一套高层的关系操作,比函数式的RDDAPI要更加友好,门
道法—自然
·
2020-08-23 04:02
Spark学习
spark sql加载csv文件并筛选
sparksql
加载csv文件并筛选frompyspark.sql.typesimportTimestampTypeimportpandasaspdpd_df=pd.read_csv('/home/product_with_decd.csv
御剑归一
·
2020-08-23 03:15
spark
Spark编程案例——DataFrame
SparkSQL
1、相应于Hive:SQL—>MapReduce2、底层依赖RDD:SQL—>RDD一、
SparkSQL
基础1、什么是
SparkSQL
?
weixin_44804248
·
2020-08-23 03:23
SparkSql
实现多个Excel文件(.csv)合并去重操作(亲测有效)
a.业务需求公司最近随着业务量的剧增,每天会有新的数据从公司服务器采集上来,公司大数据部门ETL组会每天清洗这些数据然后生成一堆Excel文件(.csv)结尾,单个Excel文件不会出现重复的数据,总的数据量大概在1000万条,平均单个Excel数据量在40~50万条。但是根据业务部门的指示想最终把这些Excel文件再做合并处理(按照某一属性如公司名称)生成唯一一个Excel(.csv)文件并保证
LanyXP
·
2020-08-23 03:41
scala
sparkSql
SparkSQL
thrift server环境搭建
一.前提条件启动hdfs集群start-all.sh192.168.4.31:50070启动hive的metastore服务node2上启动:servicemysqldrestartcd/opt/apache-hive-1.2.1-bin/bin./hive--servicemetastore没反应就是启动成功ctrl+c再执行./hive--servicemetastore&等一会后,node1
scandly
·
2020-08-23 03:32
解析SparkStreaming和Kafka集成的两种方式
sparkstreaming是基于微批处理的流式计算引擎,通常是利用sparkcore或者sparkcore与
sparksql
一起来处理数据。
菲橙
·
2020-08-23 03:32
SparkSQL
数据源之通用加载/保存方法/JSON文件/Parquet文件/JDBC
手动指定选项
SparkSQL
的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表。
大数据小同学
·
2020-08-23 03:49
#
SparkSql
数据库
mysql
hive
大数据
java
SparkSQL
编程之用户自定义函数
IDEA创建
SparkSQL
程序IDEA中程序的打包和运行方式都和SparkCore类似,Maven依赖中需要添加新的依赖项org.apache.sparkspark-sql_2.112.1.1程序如下
大数据小同学
·
2020-08-23 03:49
#
SparkSql
SparkSQL
编程之RDD、DataFrame、DataSet
在
SparkSQL
中Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?
大数据小同学
·
2020-08-23 03:49
#
SparkSql
SparkSQL
数据源之Hive数据库
ApacheHive是Hadoop上的SQL引擎,
SparkSQL
编译时可以包含Hive支持,也可以不包含。
大数据小同学
·
2020-08-23 03:49
#
SparkSql
数据库
hive
hadoop
java
大数据
Spark获取CSV文件导入ClickHouse
ClickHouse环境配置POM文件ClickHouser创建临时表数据库连接工具类(Scala版)获取csv使用工具类导入ClickHouse(重点)线上运行语句由于我们在工作中可能会用到导数需求,所以我就用
sparkSQL
W-DW
·
2020-08-23 02:39
Spark
spark-streaming
1.SparkStackspark的栈
sparksql
:相当于hive,将sql解析成rdd的transformationsparkstreaming:流式处理,相当于stormMllib:机械学习,数学知识要求很高
丹之
·
2020-08-23 02:15
SparkStreaming之updateStateByKey
packagecom.llcc.
sparkSql
.MyTimeSortimportorg.apach
九师兄
·
2020-08-23 02:10
大数据-spark
SparkSQL
保存DataFrame为CSV文件
ReadShipMMSITwopackagecom.xtd.fileimportjava.io.{BufferedWriter,File,FileWriter}importjava.utilimportcom.xtd.entity.RouteLineimportcom.xtd.example.SparkOpenGISimportorg.apache.spark.rdd.RDDimportorg.a
静谧星空
·
2020-08-23 02:30
Spark
Scala
Hadoop
spark
scala
csv
[Spark SQL] 源码解析之Optimizer
前言由前面博客我们知道了
SparkSql
整个解析流程如下:sqlText经过SqlParser解析成UnresolvedLogicalPlan;analyzer模块结合catalog进行绑定,生成resolvedLogicalPlan
大写的UFO
·
2020-08-23 01:42
[Spark SQL] 源码解析之Analyzer
前言由前面博客我们知道了
SparkSql
整个解析流程如下:sqlText经过SqlParser解析成UnresolvedLogicalPlan;analyzer模块结合catalog进行绑定,生成resolvedLogicalPlan
大写的UFO
·
2020-08-23 01:42
spark
Spark之Spark Session、Dataframe、Dataset
SparkSQL
简介
SparkSQL
架构:
SparkSQL
是Spark的核心组件之一(2014.4Spark1.0)能够直接访问现存的Hive数据提供JDBC/ODBC接口供第三方工具借助Spark进行数据处理提供了更高层级的接口方便地处理数据支持多种操作方式
天ヾ道℡酬勤
·
2020-08-23 00:06
spark
spark
Spark RDD、DataFrame、DataSet区别和联系
而右侧的DataFrame却提供了详细的结构信息,使得
SparkSQL
可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么。DataFrame多了数据的结构信息,即schema。
u013063153
·
2020-08-23 00:25
Spark
Shark——
SparkSQL
的前身-作者JerryLead
http://www.cnblogs.com/jerrylead/archive/2013/04/27/Spark.html获悉Spark最近要出书了,突然有很多感慨,心想不如写点东西出来,算是友情支持,也算是个人总结。观点尽量中立,内容尽量煽情。本着牛哥“站在巨人的肩膀上”的理论,在捧Spark之前,要先捧一下她的前辈们。大数据系统中最核心的莫过于分布式处理框架,因为框架负责job执行的方方面面
Albert陈凯
·
2020-08-23 00:29
SparkSQL
通过加载csv文件创建dataframe的常用方式总结
背景DataFrame可以从结构化文件(csv、json、parquet)、Hive表以及外部数据库构建得到,本文主要整理通过加载csv文件来创建Dataframe的方法使用的数据集——用户行为日志user_log.csv,csv中自带首行列头信息,字段定义如下:1.user_id|买家id2.item_id|商品id3.cat_id|商品类别id4.merchant_id|卖家id5.brand
AtongWood
·
2020-08-23 00:45
Spark
sparksql
数据按逗号拆分成多行
比如:原表(表名:table1)idnum1001,002,0032001,002转换成idnum10011002100320012002使用lateralviewexplode()语法使用方法是:selectid,num_perfromtable1lateralviewexplode(split(num,','))tmpTableasnum_perwherexx=xx注意:1.where条件需写
Time Woods
·
2020-08-22 23:01
大数据
Spark SQL大数据处理并写入Elasticsearch
SparkSQL
大数据处理并写入Elasticsearch
SparkSQL
(Spark用于处理结构化数据的模块)通过
SparkSQL
导入的数据可以来自MySQL数据库、Json数据、Csv数据等,通过load
Harvard_Fly
·
2020-08-22 23:55
SparkSQL
中使用concat_ws函数报错:cannot resolve 'concat_ws(,,(hiveudaffunction...
一、报错信息Exceptioninthread"main"org.apache.spark.sql.AnalysisException:cannotresolve'concat_ws(,,(hiveudaffunction(HiveFunctionWrapper(org.apache.hadoop.hive.ql.udf.generic.GenericUDAFCollectSet,org.apac
GulfMoon
·
2020-08-22 22:30
Spark
SparkSQL
Spark
concat_ws
sparkSQL
访问HDFS on jupyter notebook
在jupyternotebook交互式界面中,使用
sparksql
访问hdfs的数据,并转换为临时视图,通过sql进行查询。在此过程中遇到的问题。
thinklog2018
·
2020-08-22 22:56
Spark SQL 实现 group_concat
SparkSQL
实现group_concat环境:Spark2.0.1以下貌似需要至少Spark1.6支持,未实测(网友yanshichuan1反馈spark1.5.1同样支持,感谢)表结构及内容:+-
九剑问天
·
2020-08-22 22:56
大数据
spark
spark读写ES
{Es
SparkSQL
,SparkDataFrameFunctions}objectSparkES{defmain(args:Array[Stri
我是浣熊的微笑
·
2020-08-22 21:29
SparkSQL
| 行转列与列转行
df=spark.createDataFrame([{'id':1,u'姓名':u'张三',u'分数':88,u'科目':u'数学'},{'id':2,u'姓名':u'李雷',u'分数':67,u'科目':u'数学'},{'id':3,u'姓名':u'宫九',u'分数':77,u'科目':u'数学'},{'id':4,u'姓名':u'王五',u'分数':65,u'科目':u'数学'},{'id':
小哲嗨数
·
2020-08-22 21:20
【Spark】
sparkSQL
1.1入门之三:
sparkSQL
组件之解析
上篇在总体上介绍了
sparkSQL
的运行架构及其基本实现方法(Tree和Rule的配合),也大致介绍了
sparkSQL
中涉及到的各个概念和组件。
mmicky20110730
·
2020-08-22 21:37
spark1.1.0
spark学习路线
sparkSQL
1.1入门之九:
sparkSQL
之调优
spark是一个快速的内存计算框架;同时是一个并行运算的框架。在计算性能调优的时候,除了要考虑广为人知的木桶原理外,还要考虑平行运算的Amdahl定理。木桶原理又称短板理论,其核心思想是:一只木桶盛水的多少,并不取决于桶壁上最高的那块木块,而是取决于桶壁上最短的那块。将这个理论应用到系统性能优化上,系统的最终性能取决于系统中性能表现最差的组件。例如,即使系统拥有充足的内存资源和CPU资源,但是如果
mmicky20110730
·
2020-08-22 21:37
spark1.1.0
spark学习路线
sparkSQL
1.1入门之十:总结
回顾一下,在前面几章中,就
sparkSQL
1.1.0基本概念、运行架构、基本操作和实用工具做了基本介绍。
mmicky20110730
·
2020-08-22 21:37
spark1.1.0
spark学习路线
sparkSQL
1.1入门之六:
sparkSQL
之基础应用
SparkSQL
引入了一种新的RDD——SchemaRDD,SchemaRDD由行对象(row)以及描述行对象中每列数据类型的schema组成;SchemaRDD很象传统数据库中的表。
mmicky20110730
·
2020-08-22 21:06
spark1.1.0
spark学习路线
sparkSQL
1.1入门之七:ThriftServer和CLI
使得hive用户还有用惯了命令行的RDBMS数据库管理员很容易地上手
sparkSQL
,在真正意义上进入了SQL时代。下面先简单介绍其使用,限于时间关系,以后再附上源码分析。
mmicky20110730
·
2020-08-22 21:06
spark1.1.0
spark学习路线
SparkSQL
中的UDF
一、UDF(UserDefinedFunction):
sparkSQL
中用户自定义函数,用法和
sparkSQL
中的内置函数类似;是saprkSQL中内置函数无法满足要求,用户根据业务需求自定义的函数。
bokzmm
·
2020-08-22 21:35
spark
sparksql
中行转列
进入
sparksql
beeline-u"jdbc:hive2://172.16.12.46:10015"-nspark-pspark-dorg.apache.hive.jdbc.HiveDriver--
anshenwa4859
·
2020-08-22 21:47
在mysql中、spark中分组concat排序去重
下面分别用mysql、sparkdataframe、
sparksql
和rdd实现这个需求首先看mysql表结构--------------------------------Tablestructurefor
说书人-
·
2020-08-22 21:16
笔记
sparkSQL
行转列,列转行
在用spark进行数据处理过程中,避免不了行转列和列传行的操作,特此记录:1.列传行:这里举的例子是certificate_id,telephone_number每个身份证号可能对应多个手机号码df.createTempView("tmp")valresult=sparkSession.sql("""|selectcertificate_id,concat_ws(",",collect_set(t
我是浣熊的微笑
·
2020-08-22 20:11
spark
spark sql 性能优化
spark.sql.shuffle.partitions设置shuffle并行度二Hive数据仓库建设的时候,合理设置数据类型,比如你设置成INT的就不要设置成BIGINT,减少数据类型不必要的内存开销三SQL优化四并行的处理查询结果对于
SparkSQL
happy19870612
·
2020-08-22 20:22
大数据/spark
大数据/spark/性能优化
SparkSQL
并行度参数设置方法
版权声明:未经允许,随意转载,请附上本文链接谢谢(づ ̄3 ̄)づ╭❤~https://blog.csdn.net/xiaoduan_/article/details/79809262
SparkSQL
并行度参数设置方法
段渣渣
·
2020-08-22 20:29
SparkSQL
Spark学习
java.io.IOException: org.apache.parquet.io.ParquetDecodingException: Can not read value at 0 in bloc
org.apache.parquet.io.ParquetDecodingException:Cannotreadvalueat0inblock-1infilehdfs://test:9999/user…000.snappy.parquet由于Hive和
SparkSQL
没有合适的昵称
·
2020-08-22 19:53
疑难杂症
上一页
32
33
34
35
36
37
38
39
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他