E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
大数据-Spark SQL性能优化
SparkSQL
性能优化一·、内存中缓存表的数据scala代码spark-shell--masterspark://hadoop1:7077--jars/root/temp/mysql-connector-java
JP-Destiny
·
2019-07-27 10:29
大数据
4. Spark SQL数据源
4.1通用加载/保存方法4.1.1手动指定选项
SparkSQL
的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表。
铖歌
·
2019-07-26 09:00
SparkSQL
的3种Join实现
引言Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。对于Spark来说有3中Join的实现,每种Join对应着不同的应用场景:BroadcastHashJoin:适合一张较小的表和一张大表进行joinShuffleHashJoin:适合一张小表和一张大表进行join,或者是两张小表之
王知无
·
2019-07-25 22:11
大数据
Hadoop
Java
SparkSQL
的3种Join实现
引言Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。对于Spark来说有3中Join的实现,每种Join对应着不同的应用场景:BroadcastHashJoin:适合一张较小的表和一张大表进行joinShuffleHashJoin:适合一张小表和一张大表进行join,或者是两张小表之
王知无
·
2019-07-25 22:00
SparkSql
整合 Hive
SparkSql
整合Hive需要Hive的元数据,hive的元数据存储在Mysql里,
sparkSql
替换了yarn,不需要启动yarn,需要启动hdfs首先你得有hive,然后你得有spark,如果是高可用
强行快乐~
·
2019-07-25 20:00
3. Spark SQL解析
3.1新的起始点SparkSession在老的版本中,
SparkSQL
提供两种SQL查询起始点,一个叫SQLContext,用于Spark自己提供的SQL查询,一个叫HiveContext,用于连接Hive
铖歌
·
2019-07-22 08:00
sparkSQL
实现对hive动态分区
1.开始hive动态分区参数valspark=SparkSession.builder().appName(“test”).enableHiveSupport().config(“spark.sql.adaptive.enabled”,true).config(“spark.sql.adaptive.shuffle.targetPostShuffleInputSize”,134217728).co
weixin_42412645
·
2019-07-19 18:28
Spark
Hive Hooks介绍
当然,诸如
SparkSQL
和Presto有着他们非常合适的应用场景,我
叁金
·
2019-07-16 20:00
spark sql保存DataFrame到mysql & 从mysql读取数据
alice,156,mike,261.保存DataFrame到mysqlimportorg.apache.spark.sql.SparkSession/***将数据框保存成数据库的表中*/object
SparkSQL
JDBCWriteDemo
赵厚雄
·
2019-07-15 13:42
大数据
spark sql保存DataFrame成json格式与读取json数据成DataFrame
DataFrame转换为json数据格式importorg.apache.sparkimportorg.apache.spark.sql.SparkSession/***将数据框保存成json数据*/object
SparkSql
WriterJson
赵厚雄
·
2019-07-15 12:06
大数据
集群开发相关知识点
1、HadoopHDFS;HIVE;MapReduce;YARN2、Spark
SparkSQL
;SparkStreaming;MLib;GraphXSpark和Hadoop的区别和比较https://blog.csdn.net
_ToDream
·
2019-07-09 15:04
集群
集群
Spark SQL
SparkSQL
SparkSQL
实战详解一、
SparkSQL
的特点:二、
SparkSQL
数据抽象:三、
SparkSQL
客户端查询:四、
SparkSQL
查询方式DataFrame查询方式(1)、DSL风格
爱是与世界平行
·
2019-07-07 18:40
大数据
➹➹➹⑤Spark
Pyspark中的DataFrame操作汇总
分别为用户id,电影id,电影评分,时间戳通过导入
SparkSQL
中引入数据类型,importpyspark.sql.typesastypmovie_labels
幸运的Alina
·
2019-07-07 16:16
Spark学习
SQL在Spark的解析过程(一)
文章目录SQL解析阶段-
SparkSql
Parser绑定逻辑计划阶段-Analyzer
SparkSQL
是Spark众多组件中技术最复杂的组件之一,它同时支持SQL查询和DataFrameDSL。
小朋友2D
·
2019-07-06 10:11
Spark
SQL
PySpark-前言
从哪里获取数据;如何操作数据;分析数据如何保存数据源读取数据包括对各种数据源的介绍和读取数据的相关API数据操作主要包括3类操作RDDAPI(包括PairRDD),DataFrame,Streaming,
SparkSQL
NEO_X
·
2019-07-05 15:29
EMR Spark Runtime Filter性能优化
目前在
SparkSQL
中有Filter下推优化,包括两个维度:生成Filter
SparkSQL
会
阿里云云栖社区
·
2019-07-05 00:00
filter
join
spark
性能优化
hive创建分区表
carownerint,hmsint)partitionedby(ymd`int)ROWFORMATDELIMITEDFIELDSTERMINATEDBY‘\t’STOREDASparquet;2.加载数据,用
sparksql
in
刘s泽
·
2019-07-04 17:08
已解决问题
如何避免Spark SQL做数据导入时产生大量小文件
生产上,我们往往将
SparkSQL
作为Hive的替代方案,来获得SQLonHadoop更出色的性能。
Kent_Yao
·
2019-07-03 10:05
Spark SQL 访问Hbase
文章目录简介打包生成hbase-spark库解决访问Hbase问题读写Hbase参考文档:https://hbase.apache.org/book.html#_
sparksql
_dataframes简介
M_O_
·
2019-07-01 18:10
大数据
大数据数据仓库视频教程网盘下载-基于大数据体系构建数据仓库(Hive,Flume,Kafka,Azkaban,Oozie,
SparkSQL
)
大数据数据仓库视频教程网盘下载-基于大数据体系构建数据仓库(Hive,Flume,Kafka,Azkaban,Oozie,
SparkSQL
)40套大数据云计算高级实战精品,数据分析,数据仓库,数据爬虫,
cjmn1199
·
2019-06-29 10:14
使用
SparkSQL
时使用SQL语句中的COLLECT_SET和后期处理需要注意问题
在使用
SparkSQL
的SQL语句进行聚合后拼接时,需要使用CONCAT_WS进行多字段拼接,再使用COLLECT_SET进行收集,返回一个Array数组的集合。
R_记忆犹新
·
2019-06-28 16:20
大数据
Loong
Spark每日半小时(30)——结构化流式编程:Dataset/DataFrame API1:基本操作
如果我们不熟悉Dataset/DataFrame,可以看之前
SparkSQL
内容熟悉它们
DK_ing
·
2019-06-28 09:26
#
大数据——Spark每日半小时
#
Spark每日半小时
Spark每日半小时(28)——结构化流式编程:概览、示例
概览结构化流是一种基于
SparkSQL
引擎的可扩展且容错的流式处理引擎。我们可以像表达静态数据的批处理计算一样表达流式计算。
DK_ing
·
2019-06-27 17:29
#
大数据——Spark每日半小时
#
Spark每日半小时
Spark中
SparkSQL
的基础用法
SparkSQL
其实说白了就是方便开发人员对RDD进行间接的操作,之我前在阿里巴巴架构数据中台的时候本来想随笔的写写今天有时间就随便写点。
木楚
·
2019-06-26 23:12
大数据
Spark每日半小时(26)——数据源:JDBC到其他数据库、故障排除
SparkSQL
还包括一个可以使用JDBC从其他数据库读取数据的数据源。与使用JdbcRDD相比,此功能应该更受欢迎。
DK_ing
·
2019-06-26 12:36
#
大数据——Spark每日半小时
#
Spark每日半小时
Mapreduce和Spark的对比
的对比针对这两款计算框架从下边几个方面进行对比1.通用性1.1Spark一栈式,主要说的是,Spark不仅仅可以进行离线计算(SparkCore),同时还可以进行流式处理(SparkStreaming)、交互式计算(SparkShell,
SparkSQL
大数据容器
·
2019-06-25 21:48
Hadoop
spark
Spark SQL常见4种数据源详解
通用load/write方法手动指定选项
SparkSQL
的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表。
Stitch_x
·
2019-06-25 08:38
Spark每日半小时(24)——数据源:一般文件加载保存方法、Parquet文件
SparkSQL
支持通过DataFrame接口对各种数据源进行操作。DataFrame可以使用关系转换进行操作,也可以用于创建临时视图。将DataFrame注册为临时视图允许您对其数据运行SQL查询。
DK_ing
·
2019-06-24 11:41
#
大数据——Spark每日半小时
#
Spark每日半小时
Spark每日半小时(24)——数据源:一般文件加载保存方法、Parquet文件
SparkSQL
支持通过DataFrame接口对各种数据源进行操作。DataFrame可以使用关系转换进行操作,也可以用于创建临时视图。将DataFrame注册为临时视图允许您对其数据运行SQL查询。
DK_ing
·
2019-06-24 11:41
#
大数据——Spark每日半小时
#
Spark每日半小时
spark笔记 环境配置
spark笔记spark简介saprk有六个核心组件:SparkCore、
SparkSQL
、SparkStreaming、StructedStreaming、MLlib,GraphxSparkCore相当于
九转星辰
·
2019-06-23 17:00
Spark 基础操作
1.Spark基础2.SparkCore3.
SparkSQL
4.SparkStreaming5.Spark内核机制6.Spark性能调优1.Spark基础1.1Spark中的相应组件1.2Standalone
思考与践行
·
2019-06-22 23:00
Spark理解了这些就算入门
1,Spark基本概念:https://blog.csdn.net/liuxiangke0210/article/details/796872402,
Sparksql
和Sparkstream进一步理解:
SimpleEasy
·
2019-06-22 19:56
Spark每日半小时(23)——
SparkSQL
概览及入门
今天正好根据Spark变成指南的
SparkSQL
开始进入正题,嗯嗯,很合适。概览
SparkSQL
是用于结构化数据处理的Spark模块。
DK_ing
·
2019-06-22 14:14
#
大数据——Spark每日半小时
#
Spark每日半小时
Spark每日半小时(22)——Spark SQL中的结构化数据
SparkSQL
是在Spark1.0中新加入Spark的组件,并快速成为了Spark中较受欢迎的操作结构化和半结构化数据的方式。
DK_ing
·
2019-06-21 10:48
#
大数据——Spark每日半小时
#
Spark每日半小时
Spark每日半小时(22)——Spark SQL中的结构化数据
SparkSQL
是在Spark1.0中新加入Spark的组件,并快速成为了Spark中较受欢迎的操作结构化和半结构化数据的方式。
DK_ing
·
2019-06-21 10:48
#
大数据——Spark每日半小时
#
Spark每日半小时
Spark SQL常见4种数据源(详细)
通用load/write方法手动指定选项
SparkSQL
的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表。
Stitch_x
·
2019-06-21 10:26
Spark
SQL
Spark
spark
spark sql(phoenix cdh4.14.0)遇到的问题
=column_encoded_bytes=0;2.TIMESTAMP和DATE类型的数据相差八个小时3.
sparksql
读取数据的两种方式sparkSession.sqlContext.phoenixTableAsDataFramespark.read.format
luo222
·
2019-06-20 15:40
大数据
07 使用
sparksql
访问hive
前面我们熟悉了通过spark访问mysql,这一节我们将了解通过spark通过hive1系统、软件以及前提约束CentOS764工作站作者的机子ip是192.168.100.200,主机名为danji,请读者根据自己实际情况设置已完成spark访问mysqlhttps://www.jianshu.com/p/2b4471c03fea为去除权限对操作的影响,所有操作都以root进行2操作拷贝hive
张力的程序园
·
2019-06-19 17:34
大数据 Spark 架构,Spark企业级大数据项目实战视频,项目集成Hadoop教程,Spark
26套Spark企业级项目实战,源码深度剖析,实时流处理,机器学习,数据分析,运行原理,性能调优,图计算,性能调优,缓存优化,监控分析SparkCore,
SparkSQL
,SparkStreaming,
wx5d089cc7a67a3
·
2019-06-19 16:29
大数据
spark
架构
大数据 Spark 架构,Spark企业级大数据项目实战视频,项目集成Hadoop教程,Spark
26套Spark企业级项目实战,源码深度剖析,实时流处理,机器学习,数据分析,运行原理,性能调优,图计算,性能调优,缓存优化,监控分析SparkCore,
SparkSQL
,SparkStreaming,
wx5d089cc7a67a3
·
2019-06-19 16:26
大数据
spark
架构
Spark学习笔记(4)Spark2全面深度剖析--知识点视频,源码,调优,JVM,图计算,项目实战
26套Spark企业级项目实战,源码深度剖析,实时流处理,机器学习,数据分析,运行原理,性能调优,图计算,性能调优,缓存优化,监控分析SparkCore,
SparkSQL
,SparkStreaming,
wx5d089cc7a67a3
·
2019-06-19 16:38
spark
源码
调优
Spark 入门实战之最好的实例视频,Spark从入门到上手实战教程
26套Spark企业级项目实战,源码深度剖析,实时流处理,机器学习,数据分析,运行原理,性能调优,图计算,性能调优,缓存优化,监控分析SparkCore,
SparkSQL
,SparkStreaming,
wx5d089cc7a67a3
·
2019-06-19 16:44
spark
入门
实战
Spark 基本架构及原理,Spark核心解密源码剖析,调度流程源码剖析视频教程下载,算子优化
26套Spark企业级项目实战,源码深度剖析,实时流处理,机器学习,数据分析,运行原理,性能调优,图计算,性能调优,缓存优化,监控分析SparkCore,
SparkSQL
,SparkStreaming,
wx5d089cc7a67a3
·
2019-06-19 16:58
spark
原理
架构
来学习几个简单的Hive函数吧!
1、数据介绍首先我们产生我们的数据,使用
sparksql
来产生吧:valdata=Seq[(String,String)](("{\"userid\":\"1\",\"action\":
AI科技大本营
·
2019-06-19 12:26
案例分析之消费数据
掌握基于Hive或
SparkSQL
的数据分析某零售企业根据最近1年门店收集的数据进行数据分析潜在客户画像用户消费统计门店的资源利用率消费的特征人群定位数据的可视化展现客户细节参数:语言数据不正确交通参数
妖精小狗
·
2019-06-18 21:28
大数据
Hive
Spark读写MySQL
MySQL数据1.spark.read.jdbc()defmain(args:Array[String]):Unit={valspark=SparkSession.builder().appName("
sparksql
心有余力
·
2019-06-18 16:37
Spark
MySQL
Spark详解(十四):Spark SQL的Join实现
如今
SparkSQL
(Dataset/DataFrame)已经成为Spark应用程序开发的主流,作为开发者,我们有必要了解Join在Spa
MasterT-J
·
2019-06-17 19:08
Spark框架
Spark SQL,DataFrame 和Datasets 指南--Spak2.4.3
目录
SparkSQL
,DataFrame,DatasetSQLDatasets和DataFrameStart出发吧:SparkSession创建DataFrame非泛型Dataset操作(即DataFrame
涯若
·
2019-06-15 23:24
大数据
Spark
SQL
Hive
SQL
Apache Spark 2.0 在作业完成时却花费很长时间结束
比如我们使用
SparkSQL
去执行一些SQL,这个SQL在最后生成了大量的文件。然后我们可以看到,这个SQL所有的SparkJobs其实已经运行完成了,但是这个查询语句还在运行。
胖头鱼
·
2019-06-14 14:53
在Apache Spark中使用UDF
ApacheSpark也不例外,其为UDF与
SparkSQL
工作流集成提供了各种选项。
ClouderaHadoop
·
2019-06-14 10:45
Spark;UDF
上一页
62
63
64
65
66
67
68
69
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他