E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
分布式 SQL 引擎
分布式SQL引擎使用JDBC/ODBC或命令行接口,
SparkSQL
还可以作为一个分布式查询引擎。在该模式下,终端用户或Application可以直接执行SQL查询,而不用写任何代码。
丹之
·
2020-02-06 17:24
Spark SQL中Join常用的几种实现
因为Join操作是对两个表中key值相同的记录进行连接,在
SparkSQL
中,对两个表做Join最直接的方式是先
丹之
·
2020-02-06 14:44
mlsql流任务实现distinct
流计算场景里distinct很常用,
sparksql
对streamdataset不支持SELECTCOUNT(DISTINCTCompany)FROMOrders这种用法,但是dataframe支持dropDuplicates
dongbin_
·
2020-02-05 20:56
SparkSQL
学习笔记
概述冠状病毒来临,宅在家中给国家做贡献之际,写一篇随笔记录
SparkSQL
的学习笔记,目的有二,一是记录整理之前的知识作为备忘录,二是分享技术,大家共同进步,有问题也希望大家不吝赐教。
伯安知心
·
2020-02-05 15:00
[译]大数据分析平台搭建教程:基于Apache Zeppelin Notebook和R的交互式数据科学
方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括Scala(使用ApacheSpark)、Python(ApacheSpark)、
SparkSQL
、Hive、Markdown、Shell
FinanceR
·
2020-02-05 06:57
SparkSQL
调优
对一些
SparkSQL
任务,可以通过缓存数据、调优参数、增加并行度提升性能缓存数据sqlContext.cacheTable("tableName")或dataFrame.cache()构建一个内存中的列格式缓存使用
Alex90
·
2020-02-05 02:51
SparkSQL
如何自定义函数
1.
SparkSql
如何自定义函数2.示例:Average3.类型安全的自定义函数1.
SparkSql
如何自定义函数?
顾鹏pen
·
2020-02-04 22:00
寒假第十天
我今天学习了
sparksql
SparkSQL
可以很好地支持SQL查询,一方面,可以编写Spark应用程序使用SQL语句进行数据查询,另一方面,也可以使用标准的数据库连接器(比如JDBC或ODBC)连接Spark
张利杰j
·
2020-02-04 22:00
大三寒假生活8
今天完成了实验五的第一个,熟悉了
SparkSQL
基本操作,在安装插件的时候也遇到了以下的问题首先是在弄scala插件的时候,当scala安装成功后报错1、Couldnotcreatetheview:org.apache.hadoop.eclipse.view.servers
哈萨K
·
2020-02-04 22:00
寒假学习进度-5
sparksql
的基本编程方法连接文件valdf=spark.read.json(“file:///abc/lianxi/bigdata/src/main/data/people.json”)显示scala
苍天の笑
·
2020-02-02 19:00
Spark SQL 简介
imageSpark1.0推出
SparkSQL
,是Spark生态系统中最活跃的组件之一。能够利用Spark进行结构化的存储和操作。
cuteximi_1995
·
2020-02-02 00:43
「Spark」Spark SQL Thrift Server运行方式
SparkSQL
可以使用JDBC/ODBC或命令行接口充当分布式查询引擎。这种模式,用户或者应用程序可以直接与
SparkSQL
交互,以运行SQL查询,无需编写任何代码。
M。一直走
·
2020-02-01 22:00
「Spark」Spark SQL Thrift Server运行方式
SparkSQL
可以使用JDBC/ODBC或命令行接口充当分布式查询引擎。这种模式,用户或者应用程序可以直接与
SparkSQL
交互,以运行SQL查询,无需编写任何代码。
M。
·
2020-02-01 22:00
SparkSQL
疫情Demo练习
在家闲着没事干,写个简单的疫情数据处理Demo,顺便回顾下
SparkSQL
。
wellDoneGaben
·
2020-02-01 17:00
1 Spark Streaming 透彻理解之一
本文内容基于Spark最新版1.6.1Spark最初只有SparkCore,通过逐步的发展,现在已扩展出
SparkSQL
、SparkStreaming、SparkMLlib(machinelearning
海纳百川_spark
·
2020-02-01 04:00
spark学习笔记
1.3、
SparkSQL
通过
SparkSQL
,我们可以使用SQL或者Hive版本的SQL(HQL)来查询数据,支持多种数据源,比如Hive表、Parquet、JSON等。
seafreak
·
2020-01-31 02:36
Spark SQL实现遍历带父子id的树状结构表数据,生成带层级关系的维表数据
Hive不支持递归CTE,但可以通过
SparkSQL
遍历出带层级关系的数据。整体思路:准备好源头数据,主要保留结点id和对应的父结点id。获取根节点数据,定为第1级节点数据,保存该层级数据并做好标记。
蓝天之猪
·
2020-01-23 15:19
大数据
数据库与SQL
Spark核心技术与高级应用
Sparksql
提供SQL查询
Peng小成
·
2020-01-19 22:03
Spark读写ES
本文主要介绍
sparksql
读写es、structuredstreaming写入es以及一些参数的配置ES官方提供了对spark的支持,可以直接通过spark读写es,具体可以参考ESSparkSupport
upupfeng
·
2020-01-17 14:00
spark-submit 说明
spark-submit任务提交spark-submit\--class
sparksql
.Oracle_Sqs_Hive\--masteryarn\--deploy-modecluster\/home/
鱼丸河粉
·
2020-01-10 17:00
Pyspark基础整理
,后续再理解)frompyspark.sqlimportSparkSessionspark=SparkSession.builder\.master("local")\.appName("Python
SparkSQL
basicexample
大林子_
·
2020-01-08 08:08
spark sql 调试技巧--内置udf查看
sparksql
调试技巧--内置udf查看
SparkSQL
内置了许多常用的udf,我们该如何拿到用户的udf和内置的udf呢?
我要大声告诉你
·
2020-01-07 04:35
【2018-04-10】【2.1.1】spark sql操作mysql和hdfs
spark2.X与1.x的区别
sparksql
2.x以上版本和1.x版本有个很大的区别:spark1.x的sqlContext在spark2.0中被整合到sparkSession,故而利用spark-shell
jackLee
·
2020-01-07 04:45
spark大数据架构初学入门基础详解
Spark是什么a)是一种通用的大数据计算框架b)SparkCore离线计算
SparkSQL
交互式查询SparkStreaming实时流式计算SparkMLlib机器学习SparkGraphX图计算c)
Alukar
·
2020-01-06 21:49
Spark的那些事(四) java操作kudu全示例(含
sparksql
)
(痛苦的是
sparksql
查询kudu的java实现,官方没有示例,google也不好用)1)pom依
假文艺的真码农
·
2020-01-06 13:22
BigData-“基于代价优化”究竟是怎么一回事?
如若不知,强烈建议看官先行阅读前面两文-《
SparkSQL
–有必要坐下来聊聊Join》和《BigData–Join中竟然也有谓词下推!?》。
严国华
·
2020-01-06 13:43
【2018-04-09】【2.1版本】spark sql 读源码 notes
SparkSession是
sparksql
的入口类:valspark=SparkSession.builder().appName("
SparkSQL
datasourcesexample").config
jackLee
·
2020-01-05 14:47
使用PySpark编写
SparkSQL
程序查询Hive数据仓库
作业脚本采用Python语言编写,Spark为Python开发者提供了一个API-----PySpark,利用PySpark可以很方便的连接Hive下面是准备要查询的HiveSQLselectsum(o.sale_price),sum(casewhencate_id2in(16,18)theno.sale_priceelse0end),sum(CASEWHENcate_id2in(13,15,17
teaGod
·
2020-01-05 13:23
面试系列:如何让你的spark sql运行的更快一些?
在spark设置并行度一般通过两种方式来设置:1.spark.default.parrallelism2.textFile()传入第二个参数,指定partition数量使用
sparksql
的时候会出现什么问题
guowei
·
2020-01-05 12:06
大数据
spark
面试
Spark通过修改DataFrame的schema给表字段添加注释
Spark建表,有两种方法:用
SparkSql
,在程序里组建表语句,然后用Spark.sql("建表语句")建表,这种方法麻烦的地方在于你要读取Ora
董可伦
·
2020-01-05 05:24
Spark学习记录|RDD分区的那些事
以前在工作中主要写
SparkSQL
相关的代码,对于RDD的学习有些疏漏。本周工作中学习了一些简单的RDD的知识,主要是关于RDD分区相关的内容。
文哥的学习日记
·
2020-01-04 17:33
spark sql学习笔记
caseclassPerson(name:String,age:Int)valrddpeople=sc.textFile("/
sparksql
/people.txt").map(_.split(",")
felix_feng
·
2020-01-03 19:14
大数据架构之数据处理
在此基础上,还提出了hive,pig,impala,
sparksql
等工具。MapReduce:1.分割Datasplitting:数据分片发送到Mapper。
_Hook_
·
2020-01-03 16:10
使用
SparkSql
进行表的分析与统计
背景我们的数据挖掘平台对数据统计有比较迫切的需求,而Spark本身对数据统计已经做了一些工作,希望梳理一下Spark已经支持的数据统计功能,后期再进行扩展。准备数据在参考文献6中下载鸢尾花数据,此处格式为iris.data格式,先将data后缀改为csv后缀(不影响使用,只是为了保证后续操作不需要修改)。数据格式如下:SepalLengthSepalWidthPetalLengthPetalWid
starqiu
·
2020-01-02 13:00
4.Apache Spark的工作原理
ApacheSpark的工作原理1WhyApacheSpark2关于ApacheSpark3如何安装ApacheSpark4ApacheSpark的工作原理5spark弹性分布式数据集6RDD持久性7spark共享变量8
SparkSQL
9SparkStreaming
全能程序猿
·
2020-01-01 06:49
201、Spark 2.0之Structured Streaming:wordcount入门案例
StructuredStreamingstructuredstreaming是一种可伸缩的、容错的、基于
SparkSQL
引擎的流式计算引擎。
ZFH__ZJ
·
2020-01-01 05:50
SparkSQL
读取HBase数据
这里的
SparkSQL
是指整合了Hive的spark-sqlcli(关于
SparkSQL
和Hive的整合,见文章后面的参考阅读).本质上就是通过Hive访问HBase表,具体就是通过hive-hbase-handler
Alukar
·
2020-01-01 01:26
184、Spark 2.0之Spark 2.x与1.x对比以及分析
Spark2.x与1.x对比Spark1.x:SparkCore(RDD)、
SparkSQL
(SQL+Dataframe+Dataset)、SparkStreaming、SparkMLlib、SparkGraphxSpark2
ZFH__ZJ
·
2019-12-31 21:48
Spark SQL 使用指北
简介
sparkSQL
是为了让开发人员摆脱自己编写RDD原生代码而产生的,只需要写一句SQL语句或者调用API,进行查询或实现更复杂的数据分析,使得开发变得更简洁。
博弈史密斯
·
2019-12-31 00:51
7.Spark数据读取与保存
SparkSQL
中的结构化数据源
SparkSQL
模块,它针对包括JSON和ApacheHive在内的结构化数据源,为我们提供了一套更加简洁高效的API。
泊牧
·
2019-12-30 05:17
Spark文档 - SQL编程指南
预览
SparkSQL
是Spark用于结构化数据处理的模块。不同于基本的RDDAPI,
SparkSQL
API提供了更多有关数据和计算的机构化信息。
SparkSQL
使用这些信息执行优化。
sungoshawk
·
2019-12-29 17:37
Specified key was too long; max key length is 767 bytes。
问题:
sparksql
连接hive的元数据(mysql库)时报错:Specifiedkeywastoolong;maxkeylengthis767bytes。
Sx_Ren
·
2019-12-29 12:43
Parquet与ORC:高性能列式存储格式
越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、
SparkSQL
blablablala
·
2019-12-29 05:57
Spark的数据戏法
认真使用
SparkSQL
,交互性探索结构化和半结构化数据.
SparkSQL
的基础数据结构是Sparkdataframe,它受到了PythonPandasdataframe和Rdataframe的启发.这是一个强大
abel_cao
·
2019-12-28 11:32
是时候学习真正的 spark 技术了
sparksql
可以说是spark中的精华部分了,我感觉整体复杂度是sparkstreaming的5倍以上,现在spark官方主推structedstreaming,sparkstreaming维护的也不积极了
捌跃科技3343874032
·
2019-12-27 22:13
总结:Hive,Hive on Spark和
SparkSQL
区别
HiveonMapreduceHive的原理大家可以参考这篇大数据时代的技术hive:hive介绍,实际的一些操作可以看这篇笔记:新手的Hive指南,至于还有兴趣看Hive优化方法可以看看我总结的这篇Hive性能优化上的一些总结HiveonMapreduce执行流程这里写图片描述执行流程详细解析Step1:UI(userinterface)调用executeQuery接口,发送HQL查询语句给Dr
mrlevo520
·
2019-12-27 06:36
70、Spark SQL之Hive数据源复杂综合案例实战
Hive数据源实战
SparkSQL
支持对Hive中存储的数据进行读写。操作Hive中的数据时,必须创建HiveContext,而不是SQLContext。
ZFH__ZJ
·
2019-12-26 20:39
[flow]Flume+SparkStreaming+Kafka已经发展为一个比较成熟的实时日志收集与计算架构
SparkSQL
结合SparkStreaming,使用SQL完成实时计算中的数据统计–lxw的大数据田地http://lxw1234.com/archives/2015/11/552.htm关键字:
SparkSQL
葡萄喃喃呓语
·
2019-12-26 18:13
每日一读 12.07
SparkSQL
案例介绍与编程实现http://www.aboutyun.com/thread-23469-1-1.html––1、
SparkSQL
/DataFrame如何理解?
Vicor
·
2019-12-26 09:37
基于Scala的产品开发实践
基于目前的应用场景,主要使用了
SparkSQL
,目前使用的版本为Spark1.5.0。我们有计划去同步升级Spark最新版本。在研发期间,我们从Spark1.4升级到1.5,经过性
_张逸_
·
2019-12-25 23:24
上一页
58
59
60
61
62
63
64
65
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他