E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
基础的
sparkSQL
操作
spark连接mysql操作数据库jdbc连接封装packagetest.comimportorg.apache.spark.sql.{DataFrame,SparkSession}/***Createdbysxon2018/5/31.*/objectJDBC_db{valurl="jdbc:mysql://ip:3306/db"valdriver="com.mysql.jdbc.Driver"v
Darian_zhy
·
2018-05-31 17:00
Spark之hive的UDF自定义函数
1.简单的packagecom.llcc.
sparkSql
.MyTimeSortimportorg.apache.spark.
九师兄-梁川川
·
2018-05-31 09:09
大数据-spark
[Spark SQL] 源码解析之Analyzer
前言由前面博客我们知道了
SparkSql
整个解析流程如下:sqlText经过SqlParser解析成UnresolvedLogicalPlan;analyzer模块结合catalog进行绑定,生成resolvedLogicalPlan
BIGUFO
·
2018-05-30 10:11
[Spark SQL] 源码解析之Analyzer
前言由前面博客我们知道了
SparkSql
整个解析流程如下:sqlText经过SqlParser解析成UnresolvedLogicalPlan;analyzer模块结合catalog进行绑定,生成resolvedLogicalPlan
BIGUFO
·
2018-05-30 10:11
SparkSQL
-02 RDD转换DF的两种方式
引用原文:InteroperatingwithRDDs
SparkSQL
supportstwodifferentmethodsforconvertingexistingRDDsintoDatasets.ThefirstmethodusesreflectiontoinfertheschemaofanRDDthatcontainsspecifictypesofobjects.Thisreflection
大米饭精灵
·
2018-05-29 00:15
Spark
[Spark SQL] 源码解析之Parser
前言由上篇博客我们知道了
SparkSql
整个解析流程如下:sqlText经过SqlParser解析成UnresolvedLogicalPlan;analyzer模块结合catalog进行绑定,生成resolvedLogicalPlan
大写的UFO
·
2018-05-28 20:36
spark
[Spark SQL] 源码解析之Parser
前言由上篇博客我们知道了
SparkSql
整个解析流程如下:sqlText经过SqlParser解析成UnresolvedLogicalPlan;analyzer模块结合catalog进行绑定,生成resolvedLogicalPlan
BIGUFO
·
2018-05-28 18:14
[Spark SQL] 源码解析之Parser
前言由上篇博客我们知道了
SparkSql
整个解析流程如下:sqlText经过SqlParser解析成UnresolvedLogicalPlan;analyzer模块结合catalog进行绑定,生成resolvedLogicalPlan
BIGUFO
·
2018-05-28 18:14
spark大数据架构初学入门基础详解
Spark是什么a)是一种通用的大数据计算框架b)SparkCore离线计算
SparkSQL
交互式查询SparkStreaming实时流式计算SparkMLlib机器学习SparkGraphX图计算c)
假的鱼
·
2018-05-28 17:44
java
大数据
数据挖掘
spark
Hadoop
reduce
[Spark SQL] 主要执行流程
预备知识先介绍在
SparkSQL
中两个非常重要的数据结构:Tree和Rule。
BIGUFO
·
2018-05-25 20:27
[Spark SQL] 主要执行流程
预备知识先介绍在
SparkSQL
中两个非常重要的数据结构:Tree和Rule。
BIGUFO
·
2018-05-25 20:27
Spark 2.3.0 Spark SQL, Datasets, and DataFrames 学习笔记
一概述
sparksql
是结构化数据处理模块,可以通过SQL语句和DatasetAPI进行结构化数据处理。1.1SQL
sparksql
一个用途就是sql查询,也可以读取已经存在的hive仓库的数据。
hjbbjh0521
·
2018-05-24 15:58
spark
Spark学习了解CORE、RDD等,以及基于Hadoop2.7.5的伪分布式集群搭建Spark2.3的环境部署
spark的几种运行模式spark的数据存储和读取Spark的生态系统(spark属于BDAS生态系统)Spark框架的组成部分SPARKCORESpark生态圈的核心
SparkSQL
解释RDD解释DAGSpark
OnTheRoad_Kang
·
2018-05-20 21:06
Big
Data
Hadoop
Scala
Spark
Presto基本概念
相似的SQLonHadoop竞品还有Impala和
SparkSQL
等。这里我们介绍下Presto的基本概念,为后续的笔记做基础。
Stiga-huang
·
2018-05-20 10:18
Presto
spark2.2.0源码阅读---spark core包 --- rpc模块
在读源码前考虑到spark的体系结构有sparkcore/
sparksql
/sparkstreaming/sparkmachinelearning/sparkg
danlial
·
2018-05-18 15:28
spark源码
spark海量数据去重策略
2.常规方法:采用
sparksql
方式去重3.创新方法:采用spark的分区排序去重算子去重算法。
飞魔006
·
2018-05-17 17:31
大数据
createDataFrame
RDD本身是没有数据结构的需要函数进行分析(map,flatmap......)
SparkSQL
建立在SHARK上
SparkSQL
的优势:数据兼容,性能优化,组件扩展
SparkSQL
的语句顺序:1解析(
lt0318aa
·
2018-05-15 10:42
spark sql集成hive步骤
SPARKONHIVE:让
sparksql
通过sql的方式去读取hive当中的数据HIVEONSPARK:让hive的计算引擎由MapReduce改为SPARK1、先按官网的参考代码,构建valconf
程序猿不加班
·
2018-05-13 16:55
Spark
hive
SparkSql
中DataFrame与json、csv、mysql、hive数据的互操作
SparkSql
中DataFrame与json、csv、mysql、hive数据的互操作1.RDD转换成DataFrame1.1RDDtoDataFrameRDD转成DataFrame有2种方式,一种是通过隐式转换
张行之
·
2018-05-12 15:08
大数据
sparkStreaming实时处理
分析案例:需求:统计主站每个(指定)课程访问的客户端、地域信息分布地域:ip转换
SparkSQL
项目实战客户端:useragent获取Hadoop基础课程==>如上两个操作:采用离线(Spark/MapReduce
风一样的男人_
·
2018-05-11 20:18
spark
玩转spark
Spark-
SparkSQL
与Hive整合
我们在做Spark开发的时候有时候需要用
SparkSQL
将数据写入Hive表中,今天就来看看
SparkSQL
与Hive的整合。
SparkSQL
就是借助的Hive构建的数据仓库。
沙拉控
·
2018-05-10 22:43
Spark
大数据面试题集锦(三)
1)如果说HDFS是大数据时代分布式文件系统首选标准,那么parquet则是整个大数据时代文件存储格式实时首选标准2)速度更快:从使用
sparksql
操作普通文件CSV和parquet文件速度对比上看,
Zzreal
·
2018-05-10 22:46
面试(做弊)指南
presto、druid、
sparkSQL
、kylin的对比分析,如性能、架构等,有什么异同? - 知乎
这几个框架都是OLAP大数据分析比较常见的框架,各自特点如下:presto:facebook开源的一个java写的分布式数据查询框架,原生集成了Hive、Hbase和关系型数据库,Presto背后所使用的执行模式与Hive有根本的不同,它没有使用MapReduce,大部分场景下比hive快一个数量级,其中的关键是所有的处理都在内存中完成。Druid:是一个实时处理时序数据的Olap数据库,因为它的
·
2018-05-09 16:00
Spark SQL笔记整理(二):DataFrame编程模型与操作案例
[TOC]DataFrame原理与解析
SparkSQL
和DataFrame1、
SparkSQL
是Spark中的一个模块,主要用于进行结构化数据的处理。它提供的最核心的编程抽象,就是DataFrame。
xpleaf
·
2018-05-09 10:41
大数据
Spark
Spark
SQL
Spark
Spark Sql 连接mysql
我的原创地址:https://dongkelun.com/2018/03/21/sparkMysql/1、基本概念和用法(摘自spark官方文档中文版)
SparkSQL
还有一个能够使用JDBC从其他数据库读取数据的数据源
董可伦
·
2018-05-09 00:27
spark
大数据
scala
Spark
Spark-
SparkSQL
读写方法
这里用Spark1.6,演示
SparkSQL
的读写功能。一、DataFrame:有列名的RDD首先,我们知道
SparkSQL
的目的是用sql语句去操作RDD,和Hive类似。
沙拉控
·
2018-05-08 15:15
Spark
SparkSQL
+Hbase+HDFS实现SQL完全封装(二)
注:
SparkSQL
+Hbase+HDFS实现SQL完全封装(二)是在一的基础上做了一些优化。
少半个西瓜
·
2018-05-08 15:41
SparkSQL
Spark SQL笔记整理(一):Spark SQL整体背景介绍
[TOC]基本概述1、Spark1.0版本以后,Spark官方推出了
SparkSQL
。
xpleaf
·
2018-05-08 12:48
大数据
Spark
Spark
SQL
Spark
SparkSQL
从 MySql 中表连接查询数据到 ElasticSearch
前言:因为需要需要将mysql中的4张表连接查询最后将数据导入es中需要的jar包:org.scala-langscala-library${scala.version}org.apache.sparkspark-core_2.11${spark.version}provided-->org.apache.sparkspark-sql_2.11${spark.version}provided-->
DPnice
·
2018-05-07 17:14
spark
elasticsearch
Spark的介绍:前世今生
Spark包含了大数据领域常见的各种计算框架:比如SparkCore用于离线计算,
SparkSQL
用于交互式查询,
flyfish225
·
2018-05-07 10:05
spark
hadoop
流计算
大数据技术
基于spark sql引擎的即席查询服务
IQL(项目地址:https://github.com/teeyog/IQL)README-EN基于
SparkSQL
实现了一套即席查询服务,具有如下特性:优雅的交互方式,支持多种datasource/sink
大写的UFO
·
2018-05-07 10:36
spark
spark源码分析— spark广播变量
spark内部有很多地方都使用的广播变量功能,比如
sparksql
的join有一种broadcastjoin,就是使用广播变量实现的小表join的优化;spark提交job时,将task的依赖关系广播到集群等
ShyieZhang
·
2018-05-06 14:18
spark
DataFrame的由来 & 官网解读 & 几个重要的点
本篇文章将介绍
SparkSQL
中的DataFrame,关于DataFrame与RDD的区别,可以参见这篇博客:DataFrame与RDD的区别DataFrame的由来DataFrame是
SparkSQL
疯狂呼呼呼
·
2018-05-06 01:29
Spark
DataFrame的由来 & 官网解读 & 几个重要的点
本篇文章将介绍
SparkSQL
中的DataFrame,关于DataFrame与RDD的区别,可以参见这篇博客:DataFrame与RDD的区别DataFrame的由来DataFrame是
SparkSQL
疯狂呼呼呼
·
2018-05-06 00:00
Spark
Spark
Spark SQL运行原理
文章内容摘自>详细内容请参考书中原文一、简介介绍
SparkSQL
,就不得不提Hive和Shark。Hive是Shark的前身,Shark是
SparkSQL
的前身。
风情客家__
·
2018-05-03 20:34
spark
sparksql
查看物理执行计划
importorg.apache.spark.sql.SparkSessionobjectDF2DS{defmain(args:Array[String]):Unit={println("astron")valspark=SparkSession.builder().master("local").appName("star").getOrCreate()//导入spark的隐式转换imports
dataastron
·
2018-05-03 15:51
Spark
Hive学习笔记
数据分析的引擎:Hive、Pig---->属于Hadoop体系结构Impala
SparkSQL
----->类似Hive一、什么是Hive?
ncujcm
·
2018-05-02 13:02
大数据
Hive学习笔记
阅读更多数据分析的引擎:Hive、Pig---->属于Hadoop体系结构Impala
SparkSQL
----->类似Hive一、什么是Hive?
jin8000608172
·
2018-05-02 13:00
hive
大数据
SparkSQL
简介
SparkSQL
简介1.概念
SparkSQL
是ApacheSpark用于处理结构化数据的模块。2.特征:(1)集成将SQL查询与Spark程序无缝对接。
SunnyRivers
·
2018-05-01 15:37
Spark
Spark操作Mysql和Hive
1.MysqlJDBC
SparkSQL
可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame,通过对DataFrame一系列的计算后,还可以将数据再写回关系型数据库中。
成功人士从不写博客
·
2018-04-28 08:47
大数据
Spark的基本结构及
SparkSQL
组件的基本用法
本文主要侧重对Spark核心结构和组件的功能介绍。ApacheSpark简介ApacheSpark是一种快速的集群计算技术,专为快速计算而设计。它基于HadoopMapReduce,它扩展了MapReduce模型,以有效地将其用于更多类型的计算,包括交互式查询和流处理。Spark的主要特性是它的内存中集群计算,提高了应用程序的处理速度。Spark旨在涵盖各种工作负载,如批处理应用程序,迭代算法,交
Young_win
·
2018-04-27 23:03
cansandra手册
1、查询select*fromin_batchLIMIT10;select*fromin_batchLIMIT10ALLOWFILTERING;cassandra查询sql;2、
sparksql
专题:https
lixg425
·
2018-04-27 16:41
NoSql
cansandra手册
阅读更多1、查询select*fromin_batchLIMIT10;select*fromin_batchLIMIT10ALLOWFILTERING;cassandra查询sql;2、
sparksql
lixg425
·
2018-04-27 16:00
Spark SQL UDF2的使用
SparkSQL
UDF2的使用继续之前的UDF1进行说明:UDF1博客地址点击打开链接与UDF1的区别在于两个参数:需求:获取文本中的两个数字计算每行中数字的和文本:1,12,23,34,45,56,67,78,89,910,10
JSON_ZJS
·
2018-04-27 16:52
Spark
spark学习笔记总结
SparkSQL
、SparkStreaming、MLlib、GraphX、SparkR等核心组件解决了很多的大数据问题,其
kdy
·
2018-04-27 11:00
sparksql
dataFrame 关于列的增删改操作
最近项目中用到spark和ES的集成,涉及到一系列对dataFrame列的操作,时间主要花在列的增删改上面。整个类采用的是spark+ES+Redis架构,ES存基础数据,redis存储条件,根据redis的条件从ES筛选出符合条件的记录。valsqlContex=SparkSession.builder().master("local[2]").appName("spark2ES")//.con
xnlej
·
2018-04-26 21:58
Spark SQL 中UDF的讲解
SparkSQL
中UDF的讲解UserDefineFunction,用户自定义函数,简称UDF,存在与很多组件中。
JSON_ZJS
·
2018-04-26 19:30
Spark
在spark中将数据插入HIVE表
,schema)这里schema是由StructFied函数定义的2将数据集的DataFrames格式映射到零时表:TmpDF.createOrReplaceTempView('TmpData')3用
sparksql
__顾影自怜
·
2018-04-26 16:04
hive
个推 Spark实践教你绕过开发那些“坑”
Spark主要包括
SparkSQL
,SparkStreaming,SparkMLLib以及图计算。Spark核心概念简介1、RDD即弹性分布式数据集,通过RDD可以执行各种算子实现数据处理和计算。
个推
·
2018-04-26 14:21
个推
spark
Spark SQL 开窗函数row_number的使用
SparkSQL
开窗函数row_number的使用窗口函数row_number即为分组取topN参考文本:型号类别销售量/月小米,手机,250华为,手机,450苹果,手机,1000三星,手机,2500小米
JSON_ZJS
·
2018-04-26 11:50
Spark
上一页
71
72
73
74
75
76
77
78
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他