E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
Spark学习(肆)- 从Hive平滑过渡到Spark SQL
的使用spark-shell&spark-sql的使用spark-shellspark-sqlthriftserver&beeline的使用jdbc方式编程访问SQLContext的使用Spark1.x中
SparkSQL
-无妄-
·
2018-12-03 15:52
Spark学习笔记
平台搭建---hadoop生态的用户权限控制问题
在程序中指定Spark和Hadoop的用户
SparkSQL
利用HDFS的权限控制表的读权限大数据安全:Ranger与Sentry使用区别ApacheRanger:统一授权管理框ApacheRanger剖析
diggerTT
·
2018-12-01 17:39
系统平台搭建
SparkSQL
操纵Hive(二):环境部署
为了尝试
SparkSQL
操纵Hive,首先要进行一些环境上的部署。
weiiL
·
2018-11-28 15:03
Spark
bigdata
hive
SparkSQL
操纵Hive(一):系统准备
本文记录了
SparkSQL
操纵Hive的入门过程,包含了Ubuntu系统准备、环境部署和实例运行三个部分。这一部分为Ubuntu系统准备,主要包含了Ubuntu虚拟机的安装和ssh的安装。
weiiL
·
2018-11-28 15:47
Spark
bigdata
hive
大数据学习路线(完整详细版)
,hive,hbase,sqoop,zookeeper,flume)机器学习(R,mahout)Storm(Storm,kafka,redis)Spark(scala,spark,sparkcore,
sparksql
大数据01
·
2018-11-28 12:33
Spark编程基础1Scala
大数据学习路线课程实验实验1-Linux系统的安装和常用命令实验2-Scala编程初级实践实验3-Spark和Hadoop的安装实验4-RDD编程初级实践实验5-
SparkSQL
编程初级实践实验6-SparkStreaming
A记录学习路线
·
2018-11-28 09:19
大数据
Spark Structed Streaming 入门详解
一、概述StructedStreaming是一个可扩展和容错能力构建与
SparkSql
引擎上的流处理引擎。你可以像采用批次处理静态数据一样处理流式数据。
~shallot~
·
2018-11-26 20:33
spark
SparkSQL
创建表的几种方式
数据格式:7654,MARTIN,SALESMAN,7698,1981/9/28,1250,1400,30//需要导入的包importorg.apache.spark.SparkConfimportorg.apache.spark.SparkContextimportorg.apache.spark.sql.catalyst.encoders.ExpressionEncoderimportorg.
m0_37723298
·
2018-11-25 20:46
spark
pyspark dataframe列的合并与拆分
使用
SparkSQL
在对数据进行处理的过程中,可能会遇到对一列数据拆分为多列,或者把多列数据合并为一列。这里记录一下目前想到的对DataFrame列数据进行合并和拆分的几种方法。
山木枝
·
2018-11-25 19:19
spark
Spark简单介绍
spark组件图1spark软件栈
SparkSQL
:提供了类sql方式操作结构化半结构化数据。SparkStreaming:提供了近乎实时的流式数据处理,与storm相比有更高的
zhanghouse1
·
2018-11-24 23:22
spark
大数据
云计算
第四天 -- Accumulator累加器 -- Spark SQL -- DataFrame -- Hive on Spark
第四天–Accumulator累加器–
SparkSQL
–DataFrame–HiveonSpark文章目录第四天--Accumulator累加器--
SparkSQL
--DataFrame--HiveonSpark
Eva.努力学习
·
2018-11-23 01:38
学习
是时候学习真正的 spark 技术了

sparksql
可以说是spark中的精华部分了,我感觉整体复杂度是sparkstreaming的5倍以上,现在spark官方主推structedstreaming,sparkstreaming维护的也不积极了
七仙女很忙
·
2018-11-21 16:59
大数据
Spark
distribute by控制分区文件数
distributeby后面列,对应reduce的个数进行分发,默认是采用hash算法.大部分情况都用于解决Map输出的文件大小不均,Reduce输出文件大小不均,小文件过多,文件超大等情况.背景:1.在很多情况下,使用
sparksql
insertoverwrite
寒陌辰
·
2018-11-21 11:01
Spark学习笔记——1
一、Spark简介1、Spark:完全基于Hadoop的一种计算框架2、计算框架——》适用场景:SparkRDD——》离线批处理SparkCore——》流式计算
SparkSQL
——》交互式查询(基于Hive
Mr_Effiya
·
2018-11-21 10:24
Spark
Spark(六):
SparkSQL
AndDataFrames对结构化数据集与非结构化数据的处理
Spark(六):
SparkSQL
AndDataFrames对结构化数据集与非结构化数据的处理如上转载的这篇文章写得不错!!!一:简单了解
SparkSQL
。
小坦克007
·
2018-11-20 23:15
spark
SparkContext任务本地开发与服务器运行
1.本地开发:在IDEA中新建一个maven工程:1)maven基础坐标如下:com.imooc.
sparksql
1.02)项目名称:Imooc
SparkSql
Project3)在pom文件中修改scala
翰文不是瀚
·
2018-11-20 22:16
spark
SparkSQL
把rdd转化为DataFrame时,想要把整个数组的值都放到Row中则么办?
在使用
sparkSQL
,有时想要把rdd中的数据转换成DataFrame,RDD中的的数据可能时Array类型,或者是想要把数组类型中的所有元素放到Row中,当数组中的元素特别多时,可能就会变得更加麻烦
Lu_Xiao_Yue
·
2018-11-19 22:45
SparkSql
的一些问题记录
1.在
sparksql
打开时(beeline),查询一张表是有数据的,如果此时该表有清洗任务执行,并重新写入数据,那么会出现如下情况a.在2.0.2版本,如果此时继续查询数据,那么查询结果为没有记录;如果执行
gbsmd
·
2018-11-19 22:07
大数据
SparkSQL
访问MySql源
Spark环境spark-2.3.0添加依赖org.apache.sparkspark-sql_2.112.3.0mysqlmysql-connector-java5.1.22创建SparkSession/***SparkSession*支持数据源:textFile,load,csv,json,text,format,jdbc*@return*/publicstaticSparkSessionge
黑暗行动
·
2018-11-18 23:17
大数据
SparkSQL
访问Hive源
软件环境hadoop2.7.6spark-2.3.0scala-2.11.12hive-2.1.1
SparkSQL
命令行模式可以直接连接Hive的将hive目录中的D:\Soft\apache-hive
黑暗行动
·
2018-11-18 22:26
大数据
Spark Sql
目录Shark
SparkSql
HiveonSpark模式
SparkSQL
onHive模式DataFrameDataFrame创建方式读json文件(不能是嵌套格式的json)读取json格式的RDD读取
Hello_Money_WZG
·
2018-11-18 17:57
Spark SQL
楔子
SparkSQL
,基于Spark2.版本Spark相关内容以下内容是从相关书籍中,阅读Spark部分笔记企业大数据处理Spark、Druid、Flume、Kafka应用实践2Spark详解Spark
千里草竹
·
2018-11-18 00:04
Spark
Spark SQL系列二
DataSources
SparkSQL
支持通过DataFrame接口操作多种类型的数据源。
scott_alpha
·
2018-11-16 19:47
Spark OOM
一、背景在跑
SparkSQL
任务时,突然报OOM错误,测试的时候是可以的。
忘川三途
·
2018-11-16 10:12
大数据
SparkSQL
TiDB的存储层(TiKV)做为spark分布式数据源事例
TiSpark深度整合了SparkCatalyst引擎,可以对计算提供精确的控制,使Spark能够高效的读取TiKV中的数据,提供索引支持以实现高速的点查;通过多种计算下推减少
SparkSQL
需要处理的数据大小
BASEDEDATO
·
2018-11-14 15:13
python&&shell
hadoop&&spark
tidb
Spark源代码阅读(一)
_41705780/article/details/79273666总体架构Spark工程下的模块sparkcore,spark内核sparkstreaming,spark流计算(基于batch方式)
sparksql
MLlib
define_us
·
2018-11-13 11:45
java
SparkSQL
之双重Group解决数据倾斜
本文介绍了如何使用自定义UDF来给key新增随机数前缀,并使用双重Group来解决数据倾斜。主要内容:1.自定义UDF2.数据流程3.Spark程序1.自定义UDFRandomPrefixUDF.java/***给字段添加随机前缀*random_prefix()**@authorAdministrator*/publicclassRandomPrefixUDFimplementsUDF2{priv
阿坤的博客
·
2018-11-12 16:04
(十三)
SparkSQL
运行异常:org/codehaus/janino/InternalCompilerException
SparkSQL
中执行了Dataset的action操作出现下面的异常:Exceptioninthread"main"java.lang.NoClassDefFoundError:org/codehaus
白面葫芦娃92
·
2018-11-12 16:15
【Spark】
SparkSql
分析结果写入Mysql
这里写一下
sparksql
怎么应用
java劝退师
·
2018-11-11 23:37
BigData
Developer
Manual
sparksql
通过jdbc读取mysql时划分分区问题
当通过spark读取mysql时,如果数据量比较大,为了加快速度,通常会起多个task并行拉取mysql数据。其中一个api是defjdbc(url:String,table:String,columnName:String,lowerBound:Long,upperBound:Long,numPartitions:Int,connectionProperties:Properties):Data
wisgood
·
2018-11-10 18:58
spark
SparkSql
将数据源Hive中数据导入MySql实例
为啥子这么说呢,那就是不就是个
SparkSql
从hive导入到mysql吗!有什么技术含量,但是呢不断地踩坑ing填坑ing。废话不多说,直接上硬菜。
demon菇娘_要跳
·
2018-11-09 09:41
scala
spark
hive
Spark SQL从MySQL中加载数据以及将数据写入到mysql中 Spark Shell方式 Spark SQL程序
1.JDBC
SparkSQL
可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame,通过对DataFrame一系列的计算后,还可以将数据再写回关系型数据库中。
这个脑子不好使的
·
2018-11-07 23:34
Spark SQL
本文翻译自Spark官网(http://spark.apache.org/docs/latest/sql-programming-guide.html#datasets-and-dataframes)概览
SparkSQL
scott_alpha
·
2018-11-07 07:10
Spark Streaming(五):与Spark SQL整合
SparkStreaming最强大的地方在于,可以与SparkCore、
SparkSQL
整合使用,之前已经通过transform、foreachRDD等算子看到,如何将DStream中的RDD使用SparkCore
张凯_9908
·
2018-11-07 01:36
Spark学习笔记二:Spark.SQL
SparkSQL
在SparkCore的基础上对外提供了SQL接口,可以让熟悉SQL的技术人员快速上手。其编程入口为SparkSession。.
DanyYan
·
2018-11-06 20:11
Spark
2 、
SparkSQL
编程入口SparkSession
1.要编写
SparkSQL
程序,必须通SparkSession对象pyspark.sql.SparkSession(sparkContext,jsparkSession=None)在spark1.x之前的版本中
风中一叶(Liko)
·
2018-11-04 18:41
Spark
Spark SQL操作多种数据源
SparkSQL
的默认数据源格式为parquet格式。数据源为Parquet文件时,
SparkSQL
可以方便地进行读取,甚至可以直接在Parquet文件上执行查询操作。
大鱼-瓶邪
·
2018-11-04 17:09
Spark
Spark DataFrame的groupBy vs groupByKey
在使用
SparkSQL
的过程中,经常会用到groupBy这个函数进行一些统计工作。
zzzzMing
·
2018-11-04 16:00
Spark SQL中RDDs转化为DataFrame(详细全面)
除了调用SparkSesion.read().json/csv/orc/parqutjdbc方法从各种外部结构化数据源创建DataFrame对象外,
SparkSQL
还支持将已有的RDD转化为DataFrame
大鱼-瓶邪
·
2018-11-04 12:32
Spark
Spark数据倾斜解决方案二:过滤导致数据倾斜的Key
如果是在
SparkSQL
中使用where字句过滤,如果在SparkCore中,就是用RDD的filter算子来过滤。
hipeer
·
2018-11-02 18:24
Structured Streaming《入门示例》
概述:StructuredStreaming是一个构建在
SparkSQL
引擎上,可扩展,容错的的流处理引擎。您可以像编写静态数据的批处理程序一样,编写流处理程序。
Mathieu66
·
2018-11-02 16:00
Spark
Spark知识点总结
Spark在集群中大概运行流程4、提交Application的方式5、搭建及测试集群6、Spark的任务调度7、Spark的资源调度8、Spark的(任务调度+资源调度)整合9、SparkShuffer10、
SparkSQL
11
身为风帆,要顺其自然
·
2018-11-02 13:26
Spark
Spark相关
SparkSQL
(4):Dataframe和RDD相互转换
1.功能:实现Dataframe和RDD相互转换2.Dataframe转换RDDvaljsonRdd=jsonDataFrame.rdd3.RDD转换Dataframe(1)通过类的反射机制importsqlContext.implicits._valdf=rdd.toDF()(2)明确给定字段名称和schema信息valschema=StructType(Array(StructField("r
RayBreslin
·
2018-10-31 20:07
大数据开发
Spark
SparkSQL
Dataframe
RDD
Spark源码系列:DataFrame repartition、coalesce 对比
在
SparkSQL
中,对数据重新分区主要有两个方法repartition和coalesce,下面将对两个方法比较repartitionrepartition有三个重载的函数:defrepartition
lillcol
·
2018-10-31 19:00
RDD转换成DataFrame的两种方式
一、概述
SparkSQL
支持两种不同的方式将RDD转换为DataFrame。
jmx_bigdata
·
2018-10-31 15:15
Spark
Alluxio文件系统在搜狗的实践Alluxio内存文件系统在搜狗的实践
本次分享主要包括了Sparkshuffle基于Alluxio的优化,以及基于Alluxio对于临时表的性能改进:1.在搜狗大量的数据分析,知识图谱的数据制作使用Spark/
SparkSQL
来进行并行计算
示说网平台
·
2018-10-31 11:33
SparkSQL
操作Hive Table
SparkSQL
支持对Hive的读写操作。然而因为Hive有很多依赖包,所以这些依赖包没有包含在默认的Spark包里面。如果Hive依赖的包能在classpath找到,Spark将会自动加载它们。
hellozhxy
·
2018-10-31 10:58
spark
spark第九篇:Spark操作ES
2、
SparkSQL
supportjava代码示例:publicstaticvoidmain(Str
koushr
·
2018-10-29 22:00
大数据学习路线(完整详细版)
,hive,hbase,sqoop,zookeeper,flume)机器学习(R,mahout)Storm(Storm,kafka,redis)Spark(scala,spark,sparkcore,
sparksql
haohsq
·
2018-10-27 14:21
大数据
MongoDB on
SparkSql
的读取和写入操作(Python版本)
MongoDBon
SparkSql
的读取和写入操作(Python版本)1.1读取mongodb数据python方式需要使用pyspark或者spark-submit的方式进行提交。
张行之
·
2018-10-26 22:31
大数据
上一页
67
68
69
70
71
72
73
74
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他