E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
基于
SparkSQL
的网站日志分析实战
基于
SparkSQL
的网站日志分析实战用户行为日志概述用户行为日志:用户每次访问网站时所有的行为数据(访问、浏览、搜索、点击...)用户行为轨迹、流量日志为什么要记录用户访问行为日志网站页面的访问量网站的黏性推荐
zghgchao
·
2020-06-25 01:25
spark
spark学习-
SparkSQL
--07-SparkContext类和SparkConf类
任何Spark程序都是SparkContext开始的,SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数。初始化后,就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。Sparkshell会自动初始化一个SparkContext,在编程中的具体实现为:valconf=newSparkConf().se
九师兄
·
2020-06-25 01:21
大数据-spark
SparkSql
执行select查询
packagecn.itcast.spark.testimportjava.sql.{Connection,Date,DriverManager,PreparedStatement}importjava.util.Propertiesimportorg.apache.spark.sql.{DataFrame,SQLContext}importorg.apache.spark.{SparkConf,
qq_16563637
·
2020-06-24 23:10
sparksql
Spark SQL 集成ElasticSearch的案例实战
SparkSQL
集成ElasticSearch的案例实战ElasticSearch概念回顾ElasticSearch是一个基于Lucene的搜索服务器。
张章章Sam
·
2020-06-24 23:01
Spark-SQL处理小文件问题
一、小文件产生的原因1、在使用
sparksql
处理数据的过程中,如果有shuffle产生,依赖于spark.sql.shuffle.partitions配置信息,默认为200,当处理的数据量比较大时,通常会把该值调大
九指码农
·
2020-06-24 23:25
spark及问题解决
spark-sql
Spark-SQL adaptive 自适应框架
一、自适应框架能解决什么问题1、目前
SparkSQL
中reduce阶段的task个数取决于固定参数spark.sql.shuffle.partition(默认值200),一个作业一旦设置了该参数,它运行过程中的所有阶段的
九指码农
·
2020-06-24 23:25
spark-sql
spark
hive
自适应框架
adaptive
spark 读取 es 的es查询语法
exists_:oidANDopeType:(-GetBluetoothKey-DbToDoBizListQuery-GenToken-GetMenuData)";DataFrameesDF=JavaEs
SparkSQL
.esDF
狗剩和翠花
·
2020-06-24 22:33
elasticsearch
spark
Spark将RDD转换成DataFrame的两种方式
scala2.10中最大支持22个字段的caseclass,这点需要注意2.是通过spark内部的StructType方式,将普通的RDD转换成DataFrame装换成DataFrame后,就可以使用
SparkSQL
zhao_rock_2016
·
2020-06-24 21:46
Spark
Spark DataFrame、Spark SQL、Spark Streaming入门教程
文章目录前言1、RDD、SparkDataFrame、
SparkSQL
、SparkStreaming2、SparkDataFrame2.1创建基本的SparkDataFrame2.2从各类数据源创建SparkDataFrame2.3SparkDataFrame
yield-bytes
·
2020-06-24 20:51
Spark
Spark SQL快速离线数据分析
1.
SparkSQL
概述1)
SparkSQL
是Spark核心功能的一部分,是在2014年4月份Spark1.0版本时发布的。
努力的凹凸曼
·
2020-06-24 20:39
Spark新闻项目
大数据
Spark SQL电影分析案例
用
SparkSQL
分析热门电影的TopN1.数据结构数据可以在此下载https://pan.baidu.com/s/1eSNt6E2#list/path=%2FshareData文件夹中包含三个数据文件
pofengliuming
·
2020-06-24 20:43
spark
spark-sql测试总结
http://colobu.com/2014/12/11/spark-sql-quick-start/
SparkSQL
初探:使用大数据分析2000万数据##############不要问我数据怎么下载的
富兰克林008
·
2020-06-24 18:13
spark-sql
Spark架构和原理
Spark包含了多种计算库,有
SparkSQL
、SparkStreaming、MLlib、GraphX4、
小学僧丶Monk
·
2020-06-24 15:44
Spark
《Spark上的等值连接优化》学习笔记
(这种情况使得Spark不能通过数据预划分来改进等值连接操作)在
SparkSQL
中使用最多的是BroadcastJoin和Reparti
Tanglement
·
2020-06-24 15:00
spark操作phoenix
spark第八篇:与Phoenix整合
sparksql
可以与hbase交互,比如说通过jdbc,但是实际使用时,一般是利用phoenix操作hbase。
何星平
·
2020-06-24 12:57
SPARK
SparkSql
------RDD、DataFrame、DataSet
RDDRDD是一个懒执行的不可变的可以支持Functional(函数式编程)的并行数据集合。RDD的最大好处就是简单,API的人性化程度很高。RDD的劣势是性能限制,它是一个JVM驻内存对象,这也就决定了存在GC的限制和数据增加时Java序列化成本的升高。DataFrame简单来说DataFrame是RDD+Schema的集合什么是Schema?之前我们学习过MySQL数据库,在数据库中schem
luoyunfan6
·
2020-06-24 10:01
spark基础
SparkSql
------自定义函数UDF和UDAF
UDF测试数据{"name":"aaa","age":20}{"name":"bbb","age":30,"facevalue":80}{"name":"ccc","age":28,"facevalue":80}{"name":"ddd","age":28,"facevalue":90}案例(scala语言)importorg.apache.spark.SparkConfimportorg.apa
luoyunfan6
·
2020-06-24 10:29
spark基础
SparkSql
------RDD、DataFrame、DataSet之间的相互转化
在老的版本中,
SparkSQL
提供两种SQL查询起始点,一个叫SQLContext,用于Spark自己提供的SQL查询,一个叫HiveContext,用于连接Hive的查询,SparkSession是Spark
luoyunfan6
·
2020-06-24 10:29
spark基础
Pipeline详解及Spark MLlib使用示例(Scala/Java/Python)
1.数据框:机器学习接口使用来自
SparkSQL
的数据框形式数据作为数据集,它可以处理多种数据类型。比如,一个数据框可以有不同的列存储文本、特征向量、标签值
liulingyuan6
·
2020-06-24 06:24
Spark
MLlib
大数据架构师技能图谱
MahoutSparkMlibTensorFlow(Google系)AmazonMachineLearningDMTK(微软分布式机器学习工具)五、数据分析/数据仓库(SQL类)PigHivekylin
SparkSQL
lipc_
·
2020-06-24 05:26
大数据
Spark ML机器学习:SQLTransformer
它支持
SparkSql
中的所有select选择语句,sum(),count(),groupby,orderby等等都可以用!形如”SELECT…FROM__THIS__”。’
linweidong
·
2020-06-24 05:47
大数据开发
实战spark core数据读取&存储
前言
sparksql
[spark1.0.0]出现之前,数据的读取是通过sparkContext得到的是RDD,数据的存储是通过不同类型RDD的saveXXX方法存储的,Spark的整个生态系统与Hadoop
小白数据猿
·
2020-06-24 04:04
Spark
Hadoop Parquet File 文件的读取
产生parquet数据这里通过
SparkSQL
来从CSV文件中读取数据,然后把这些数据存到parquet文件去。
leishenop
·
2020-06-24 03:41
HDFS
SparkSQL
自定义外部数据源源码分析及案例实现
通过查看JDBC方式源代码入口分析:源码分析//继承BaseRelation的类必须能够以`StructType`的形式产生其数据模式。具体的实现应继承自后代Scan类之一abstractclassBaseRelation{defsqlContext:SQLContextdefschema:StructTypedefsizeInBytes:Long=sqlContext.conf.defaultS
冬瓜螺旋雪碧
·
2020-06-24 02:55
Spark
源码
大数据系列第二课:scala基础
第一阶段:Sparkstreaming、
sparksql
、kafka、spark内核原理(必须有一个大型项目经验);第二阶段:spark运行的各种环境,各种故障的解决,性能优化(精通spark内核、运行原理
kxr0502
·
2020-06-24 01:05
spark
大数据系列第一课:scala基础
第一阶段:Sparkstreaming、
sparksql
、kafka、spark内核原理(必须有一个大型项目经验);第二阶段:spark运行的各种环境,各种故障的解决,性能优化(精通spark内核、运行原理
kxr0502
·
2020-06-24 01:04
大数据技术-Scala
各种bi工具支持的数据源
Superset1Mmetabase10Mredash10Mcboard4Kdavinci10kpentaho10kcboard4k国产1.国产cboard2.finebi支持excel,mysql,hive,spark,impala3.superset支持druid,mysql,impala,clickhouse,
sparksql
我的海_
·
2020-06-24 01:59
10.1 spark-sql 10亿级数据交互式秒级查询可行性
当前版本:saprk2.4cdh数据演示为10亿,41列
sparksql
提供了类sql的标准,支持数学函数,聚合函数,时间函数,字符串函数,支持已经很完善了参考:https://spark.apache.org
我的海_
·
2020-06-24 01:28
Spark SQL运行原理
文章内容摘自>详细内容请参考书中原文一、简介介绍
SparkSQL
,就不得不提Hive和Shark。Hive是Shark的前身,Shark是
SparkSQL
的前身。
代码不会写
·
2020-06-23 23:19
spark学习
优化spark sql读取 kudu数据
1.背景2.实战3.实战1.背景通过
sparksql
读取kudu数据,由于kudu表只有6个tablet,所以spark默认只能启动6个task,读取kudu数据,通过界面可以看到kudu的scan维持在
shengjk1
·
2020-06-23 23:29
工作之行
spark
kudu
spar
kudu
优化
spark
read
kudu
Hadoop学习路线
,hive,hbase,sqoop,zookeeper,flume)机器学习(R,mahout)Storm(Storm,kafka,redis)Spark(scala,spark,sparkcore,
sparksql
jiang_hadoop
·
2020-06-23 21:11
Hadoop从入门到精通
大数据学习路线
SparkSQL
1、Schema的定义通过StructType和StructField等API来定义Schema。StructType的构造器:newStructType(fields:Seq[StructField])StructField的构造器:newStructField(name:String,dataType:DataType,nullable:Boolean)其中StructType继承DataTy
红袖者
·
2020-06-23 20:55
Spark自带例子研究
假设我们的master是一台名为"Y40"的机器,我们在集群中任何一台机器上,运行自带的
SparkSQL
Example,只需要在Spark所在目录下执行.
见丰
·
2020-06-23 16:28
从零搭建企业大数据分析和机器学习平台-技术栈介绍(三)
数据传输工具Flume日志收集工具Kafka分布式消息队列数据存储Hbase分布式Nosql数据库Hdfs分布式文件系统大数据处理HadoopSpark数据查询分析工具ApacheHivePig、Impala和
SparkSQL
有理想的coder
·
2020-06-23 15:43
大数据入门笔记
ClassNotFoundException: org.codehaus.janino.InternalCompilerException
SparkSQL
创建DF时出现异常异常信息Driverstacktrace:atorg.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler
hlp4207
·
2020-06-23 14:30
exception
spark
scala
94、Spark Streaming之与Spark SQL结合使用之top3热门商品实时统计案例实战
与
SparkSQL
结合使用SparkStreaming最强大的地方在于,可以与SparkCore、
SparkSQL
整合使用,之前已经通过transform、foreachRDD等算子看到,如何将DStream
ZFH__ZJ
·
2020-06-23 14:18
Kylin的概述
于是各式各样的“SQLonHadoop”技术应运而生,其中以Hive为代表,Impala、Presto、Phoenix、Drill、
SparkSQL
等紧随其后。
gao123456789amy
·
2020-06-23 09:39
学习笔记
HiveHBaseTableOutputFormat cannot be cast to org.apache.hadoop.hive.ql.io.HiveOutputFormat解决方法
用
SparkSQL
写入hive-hbase表报错java.lang.ClassCastException:org.apache.hadoop.hive.hbase.HiveHBaseTableOutputFormatcannotbecasttoorg.apache.hadoop.hive.ql.io.HiveOutputFormatatorg.apache.spark.sql.hive.Spark
futhead
·
2020-06-23 09:34
Structured Streaming
StructuredStreaming是一个scalable和fault-tolerant流处理引擎,该引擎是构建
SparkSQL
之上。可以使得用户以静态批处理的方式计算流数据。
fql123455
·
2020-06-23 08:52
Spark
elasticsearch使用spark sql来实现join
这里提供
sparksql
来实现join的一种思路。spark是一个通用的分布式处理框架,包括但不限于数据的读
flowaters
·
2020-06-23 08:00
SparkSQL
的3种Join实现
SparkSQL
作为大数据领域的SQL实现,自然也对Join操作做了不少优化,今天主要看一下在
SparkSQL
中对于Join,常见的3种实现。
狗叔
·
2020-06-23 05:14
Spark
大数据畅谈
Spark SQL中的聚合(Aggregate)实现
SparkSQL
中的聚合(Aggregate)实现SortBasedAggregate首先来说说实现比较简单(但实际执行起来却不简单)的SortBasedAggregate。
狗叔
·
2020-06-23 05:14
Spark
大数据畅谈
SparkSQL
中的Sort实现(一)
引言Sort操作也是SQL中常用的操作,一般来说,Sort操作在SQL语句中有两种体现,即Sortby和Orderby。这两种的区别是前者是针对分区内排序,而后者是对全表进行一个排序。那有的人问了,全表排序可以理解,那分区排序针对于什么场景呢?通常是在SQL语句中搭配distributedby一起使用,先将表按照某些字段进行分区,然后在分区内进行排序,能够很好的看清分区内的数据分布。Sortby和
狗叔
·
2020-06-23 05:14
Spark
大数据畅谈
sparkSQL
flinkSQL hiveSQL性能对比
听说flink挺快的,那么flinkSQL和
sparkSQL
到底哪个快呢?
dianfuwo9488
·
2020-06-23 04:32
零基础学Flink:UDF
在上一篇文章中我们介绍了一些FlinkSQL的基础内容,以及与
SparkSQL
对比,有兴趣的小伙伴可以点连接进去看看。
麒思妙想
·
2020-06-23 02:26
Flink SQL vs Spark SQL
我们今天会
SparkSQL
和FlinkSQL的执行流程进行一个梳理。并提供2个简单的例子,以供参考。
麒思妙想
·
2020-06-23 02:26
spark周边
Spark1.0版本开始,推出了
SparkSQL
。其实最早使用的,都是Hadoop自己的Hive查询引擎;但是后来Spark提供了Shark;再后来Shark被淘汰,推出了
SparkSQL
。
bingoabin
·
2020-06-22 18:05
大数据
hadoop
OopsOutOfMemory盛利的博客
SparkSQL
源码分析系列文章从决定写
SparkSQL
源码分析的文章,到现在一个月的时间里,陆陆续续差不多快完成了,这里也做一个整合和索引,方便大家阅读,这里给出阅读顺序:)第一篇
SparkSQL
源码分析之核心流程第二篇
Albert陈凯
·
2020-06-22 18:40
大数据不就是写SQL吗?
SparkSQL
、Hive、Phoenix、Drill、Impala、Presto、Druid、Kylin(这
aydnwba6940
·
2020-06-22 15:54
实验5 Spark SQL编程初级实践
今天做实验【
SparkSQL
编程初级实践】,虽然网上有答案,但在自己的环境下并不能够顺利进行在第二题中,要求编程实现将RDD转换为DataFrame。
aoaoshuai11111
·
2020-06-22 14:26
上一页
53
54
55
56
57
58
59
60
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他