E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
Spark Sql教程(7)———Parquet文件
SparkSql
的默认数据格式是Parquet文件,
SparkSQL
能够方便点的进行去读,甚至能够在Parquet文件上执行查询操作。
辜智强 -buaa
·
2019-05-07 15:19
Spark SQL使用 JDBC 从其他数据库读取数据的数据源
方式读取bin/spark-shell--driver-class-path***.jar--jars***.jar用户可以使用DataSourcesAPI将来自远程数据库的表作为DataFrame或
SparkSQL
weixin_jumery
·
2019-05-07 10:47
Spark
Hive元数据存储结构讲解与元数据操作
本文介绍Hive元数据库中一些重要的表结构及用途,方便Impala、
SparkSQL
、Hive等组件访问元数据库的理解。1、存储Hive版本的元数据表(VERSION)该表比较简单,但很重要。
牛大财有大才
·
2019-05-05 11:09
Hive编程和数据仓库
(三)
SparkSQL
学习笔记之基本操作
文章目录DataFrame基本操作Columns操作字面常量转换为Spark类型添加列重命名列删除列更改列类型过滤行行去重Union行排序limitrePartition&coalesce收集数据到DriverUDF的使用DataFrame基本操作从定义上看,一个DataFrame包括一系列的records,这些行的类型是Row类型,包括一系列的columns。Schema定义了每一列的列名和数据
DeaSun
·
2019-05-04 23:21
Spark
Spark SQL数据源操作
概述:本文介绍
SparkSQL
操作parquet、hive及mysql的方法,并实现Hive和MySql两种不同数据源的连接查询1、操作parquet(1)编程实现#启动spark-shell.
JeeThink
·
2019-05-04 20:20
Scala词法文法解析器 (一)解析
SparkSQL
的BNF文法
平台公式及翻译后的
SparkSQL
平台公式的样子如下所示:if (XX1_m001[D003]="邢おb7肮α䵵薇" || XX1_m001[H003][SUM,COUNT]tableName,valueName
BarryW
·
2019-05-02 23:00
Spark
SparkSQL
的数据加载和落地
1.数据的加载使用read.load(path)默认加载的是parquet格式的文件,如果需要加载其他类型的文件,需要通过format(类型)指定。当然,spark对一些主要格式的文件的加载都提供了更加简洁的API操作方式加载json格式文件----要求文件的格式统一spark.read.format("csv").load("file:///C:\\Users\\mycat\\Desktop/t
猫君之上
·
2019-04-30 09:02
Spark
SparkSQL
DataFrame和Dataset基本操作
1.正常打印输出1)创建SparkSessionvalspark=SparkSession.builder().appName("dfdemo").master("local[*]").getOrCreate()2)准备创建RDDvalpersonList:List[Person]=List(Person("1","jack",22),Person("2","radrek",23),Person(
猫君之上
·
2019-04-29 21:50
Spark
Impala presto hbase hive
sparksql
Impala技术点梳理http://www.cnblogs.com/TiestoRay/p/10243365.htmlImpala优点:实时性查询计算的中间结果不写入磁盘缺点:对于内存的依赖过于严重,内存溢出直接导致技术任务的失败不支持UDF,不支持UPDATE/DELTE操作,不支持同一SELECT中多个DISTINCT即在内存不足时将数据存入磁盘进行计算。这是在Impala1.4forCDH4
dian张
·
2019-04-29 17:05
spark
hive
【Spark2参数调优】submit Spark sql脚本并行度调优
spark2submit
Sparksql
脚本并行度调优疑问:关于spark.default.parallelism现象:每个executor所分配的core小于activetask的数量解决:指定spark.sql.shuffle.partitions
Jack_Roy
·
2019-04-28 15:21
Spark
sql参数调优
Spark-
SparkSQL
Join
原文链接:http://hbasefly.com/2017/03/19/
sparksql
-basic-join/?
迷路剑客
·
2019-04-27 23:14
spark
Spark学习之Spark SQL
一、简介
SparkSQL
提供了以下三大功能。(1)
SparkSQL
可以从各种结构化数据源(例如JSON、Hive、Parquet等)中读取数据。
|旧市拾荒|
·
2019-04-27 15:00
SparkSQL
学习笔记----Hive数据源实战
1、什么是HiveContext
SparkSQL
支持对Hive中存储的数据进行读写操作Hive中的数据时,必须创建HiveContext(HiveContext也是已经过时的不推荐使用,嘤嘤嘤~还没学好就已经过时了
PZ~浪味仙
·
2019-04-26 16:46
Spark
SQL
SparkSQL
性能优化
一、设置Shuffle过程中的并行度设置参数:SQLContext.setConf("spark.sql.shuffle.prititions",xxx);二、设置合理的数据类型在Hive数据仓库建设过程中,合理设置数据类型,比如能设置为IINT的,就不要设置成BIGINT,减少数据类型导致的不必要的内存开销。三、明确列名编写SQL是,尽量给出明确的列明,比如selectnamefromstude
Johnson8702
·
2019-04-25 17:09
SparkSQL
Spark连接各种数据源解析
sparksql
连接MySQL数据库publicstaticvoidmain(String[]args){SparkConfconf=newSparkConf().setMaster("local").
麻油叶先生的IT人生
·
2019-04-25 17:42
spark sql 读取hbase中数据保存到hive
新建SaprkReadHbase类:package
sparksql
importjava.util.Propertiesimportorg.apache.hadoop.hbase.HBaseConfigurationimportorg.apache.hadoop.hbase.client.Resultimportorg.apache.hadoop.hbase.io.ImmutableBytesWri
lin502
·
2019-04-25 11:36
spark
sql
大数据各个框架图,大致按照这个方向去学框架,至于底层的算法就靠自己自觉了
下面全是copy的---真正的大数据开发培训,一定是包含hadoop生态体系和spark生态圈,能够搭建hadoop系统架构和集群,搭建spark架构,构建spark集群,处理
SparkSQL
、sparkstreaming
祁东握力
·
2019-04-24 23:57
大数据
SparkSQL
总结
一.
SparkSQL
介绍:1.简单来说,Hive是Shark的前身,Shark则是
SparkSQL
的前身,
SparkSQL
产生的原因则是由于Shark对于Hive的太多依赖(如采用Hive的语法解析器、
Arsenar7
·
2019-04-22 08:39
SparkSQL
SparkSQL
Spark
Spark 和 MapReduce的区别
性能3.2使用难度3.3成本3.4兼容性3.5数据处理3.6容错3.7安全性3.8处理速度3.9总结4相关概念4.1HDFS4.2MapReduce4.3YARN4.4SparkStreaming4.5
SparkSQL
4.6Hive4.7HBase4.8Flume1MapReduce
意念回复
·
2019-04-21 23:06
数据库
Sparksql
中插入数据时,如果记.录不存在则insert,如果存在则update
最近在写项目的时候,碰到了需要通过
Sparksql
对数据库数据根据主键进行存在即覆盖,不存在则追加的操作,记得在以前的使用2.1.0版本的spark的时候,我是使用了replaceinto完成了这种操作
爱国好青年
·
2019-04-19 10:14
Sparksql
【Spark】Spark SQL总结
一、
SparkSQL
介绍Hive是Shark的前身,Shark是
SparkSQL
的前身,
SparkSQL
产生的根本原因是其完全脱离了Hive的限制。
GG(❤ ω ❤)YY
·
2019-04-18 22:40
Spark
大数据
Spark
Spark Sql 二次分组排序取TopK
基本需求用
sparksql
求出每个院系每个班每个专业前3名样本数据数据格式:id,studentId,language,math,english,classId,departmentId,即id,学号,
王杰0110
·
2019-04-17 15:43
Hive
Spark好文推荐
1.1SparkStreamingSparkStreaming反压(BackPressure)机制介绍一文读懂Spark和SparkStreamingSparkStreaming2.1.0ProgrammingGuide个人理解与翻译1.2
SparkSql
Hive
迷路剑客
·
2019-04-17 00:00
spark
Spark sql理论简介
Sparksql
简介什么是
sparksql
SparkSQL
是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。
lds_include
·
2019-04-14 17:13
大数据
Spark
Spark-SQL之JDBC数据源
JDBC数据源
SparkSQL
支持使用JDBC从关系型数据库(比如MySQL)中读取数据。读取的数据,依然由DataFrame表示,可以很方便地使用SparkCore提供的各种算子进行处理。
S_Running_snail
·
2019-04-13 13:56
spark
Spark-SQL之RDD转换为DataFrame
RDD2DataFrameProgrammatically二、使用反射的方式将RDD->>DataFrame-->>RDD2DataFrameReflectRDD转换为DataFrame之后的话,我们就可以直接针对HDFS等任何可以构建为RDD的数据,使用
SparkSQL
S_Running_snail
·
2019-04-13 13:04
spark
Spark 子模块 StructuredStreaming分析(及
SparkSQL
的演变)
SparkMasterbranch(2018.11,compiled-versionspark-3.0.0)2.画图工具(dia0.97+git,http://live.gnome.org/Dia)二、
SparkSQL
亚历山大的陀螺
·
2019-04-09 16:39
Spark
SparkSQL
大数据学习路线(完整详细版)
,hive,hbase,sqoop,zookeeper,flume)机器学习(R,mahout)Storm(Storm,kafka,redis)Spark(scala,spark,sparkcore,
sparksql
qq_25889465
·
2019-04-08 23:16
Spark是什么、能干什么、特点-一目了然
目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含
SparkSQL
、S
lds_include
·
2019-04-08 16:45
大数据
Spark
Spark SQL: Relational Data Processing in Spark
SparkSQL
:RelationalDataProcessinginSpark
SparkSQL
:Spark中关系型处理模块说明:类似这样的说明并非是原作者的内容翻译,而是本篇翻译作者的理解(可以理解为批准
fansy1990
·
2019-04-07 09:56
书籍: PySpark SQL Recipes_ With HiveQL, Dataframe and Graphframes - 2019.pdf
简介图片.pngPy
SparkSQL
Recipes:使用HiveQL,Dataframe和GraphframesPdf使用问题解决方案方法,使用Py
SparkSQL
,图形框架和图形数据处理进行数据分析。
python测试开发_AI命理
·
2019-04-07 00:22
Apache Spark SQL自适应执行实践
SparkSQL
是ApacheSpark最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据,在很多应用领域都有成功的生产实践,但是在超大规模集群和数据集上,
SparkSQL
仍然遇到不少易用性和可扩展性的挑战
麦子星星
·
2019-04-03 22:24
sparksql
处理嵌套json
一,基本介绍本文主要讲spark2.0版本以后存在的
Sparksql
的一些实用的函数,帮助解决复杂嵌套的json数据格式,比如,map和嵌套结构。
Jacy_Wang
·
2019-04-03 13:05
spark
看过的好的博客
SparkBlockManager原理与源码分析yarn的框架及原理Spark数据倾斜的完美解决
SparkSQL
AndDataFrames对结构化数据集与非结构化数据的处理spark针对性面试问题标题标题标题待续
韦小特
·
2019-03-29 15:59
sparksql
之JDBC支持
defmain(args:Array[String]):Unit={//sparkSparkSession对象操作sql语句valspark=SparkSession.builder().config(conf).getOrCreate()valsc=spark.sparkContextimportspark.implicits._//jdbcvalprop=newProperties()prop
LMY____梦阳� � �
·
2019-03-28 15:05
sparksql
jdbc
史上最简单的spark教程第九章-
SparkSQL
编程Java案例实践(一)斗图王来辣
Spark-SQL的Java实践案例史上最简单的spark教程所有代码示例地址:https://github.com/Mydreamandreality/sparkResearch(提前声明:文章由作者:张耀峰结合自己生产中的使用经验整理,最终形成简单易懂的文章,写作不易,转载请注明)(文章参考:Elasticsearch权威指南,Spark快速大数据分析文档,Elasticsearch官方文档,
李时珍皮啊
·
2019-03-27 18:52
#
spark
#
大数据
拥抱大数据
Spark一路火花带闪电——认识Spark
文章目录认识ApacheSpark1.1Spark是一个软件栈1.1.1SparkCore1.1.2
SparkSQL
1.1.3SparkStreaming1.1.4MLlib1.1.5GraphX1.1.6
No_Game_No_Life_
·
2019-03-27 14:33
分布式架构
大数据基础
SparkSQL
操作Hive表 Demo程序
packageorg.apache.spark.examples.sql.hive;//$exampleon:spark_hive$importjava.io.File;importjava.io.Serializable;importjava.util.ArrayList;importjava.util.List;importorg.apache.spark.api.java.function.
MrZhangBaby
·
2019-03-27 11:12
大数据
Spark
Hive
sparkSQL
清洗埋点数据(java版)
数据格式:{"actionTimes":"2018-11-25","actions":"搜索","bb":"v1.0","fromType":"Chrome/73.0.3683.75","fromURL":"https://www.nyist.com/s?wd=ip%E5%9C%B0%E5%9D%80&rsv_spt=1","ip":"120.50.10.233","requestMethod":
MrZhangBaby
·
2019-03-27 11:06
大数据
Spark
SPark SQL编程初级实践
三、实验内容和要求1.
SparkSQL
基本操作将下列json数据复制到你的ubuntu系统/usr/local/spark下,并保存命名为employee.json。
weixin_30437481
·
2019-03-26 22:00
json
python
数据库
Spark Sql 与 MySql 使用 group by 的差别
刚学
Sparksql
,今天在使用过程中遇到一个小问题。来分享一下。
糊七七
·
2019-03-26 14:39
数据库
【Spark调优】小表join大表数据倾斜解决方案
【使用场景】对RDD使用join类操作,或者是在
SparkSQL
中使用join语句时,而且join操作中的一个RDD或表的数据量比较小(例如几百MB或者1~2GB),比较适用此方案。
wwcom123
·
2019-03-24 00:00
【Spark调优】聚合操作数据倾斜解决方案
【使用场景】对RDD执行reduceByKey等聚合类shuffle算子或者在
SparkSQL
中使用groupby语句进行分组聚合时,经过sample或日志、界面定位,发生了数据倾斜。
wwcom123
·
2019-03-22 23:00
Spark UDF函数
SparkSQL
的两种UDAF的讲解2018年07月09日00:07:35Spark高级玩法阅读数:1477版权声明:本文为博主原创文章,未经博主允许不得转载。
fengfengchen95
·
2019-03-20 16:58
SparkSql
Sparksql
连接本地mysql数据库
spark版本1.6.2packagecn.itcast.spark.sqlimportorg.apache.spark.{SparkConf,SparkContext}importorg.apache.spark.sql.SQLContextobjectSQL_TEST{defmain(args:Array[String]):Unit={//spark上下文valconf=newSparkCon
Levy_Y
·
2019-03-19 10:42
spark
spark
数据仓库的对比和选择
InfoBrightGreenplum(已开源)、HPVertica、TeraData、Palo、ExaData、RedShift、BigQuery(Dremel)开源实现Impala、Presto、
SparkSQL
JouyPub
·
2019-03-18 00:00
数据仓库
SparkSQL
04
一、自定义spark.read.format在一个项目处理多种文件格式,并输出DF,ETL场景使用较多。二、FunctionSpark内置函数PvUv案例:需求:每天每个用户观看的视频次数1)将数组转RDD2)RDD转DF/DS//API做法:3)按date分组,selectuser,date,count(1)fromxxxgroupbyser,date1、源码packagecom.HBinz.s
HBinz
·
2019-03-16 22:21
spark core 系列一
spark为批处理(Sparkcore),交互式(
SparkSQL
),流式(SparkStreaming),机器学习(MLib),图处理(GraphX)提供一个统一的数据处理平台,这相对于使用Hado
scott_alpha
·
2019-03-15 21:43
每周一书《Spark与Hadoop大数据分析》分享!
大数据分析比较系统地讲解了利用Hadoop和Spark及其生态系统里的一系列工具进行大数据分析的方法,既涵盖ApacheSpark和Hadoop的基础知识,又深入探讨所有Spark组件——SparkCore、
SparkSQL
中科计算所
·
2019-03-15 12:04
Spark
Hadoop
大数据
Spark 实时处理 总文章
spark读取kudu表导出数据为parquet文件(sparkkuduparquet)kudu导入/导出数据Kudu分页查询的两种方式map、flatMap(流的扁平化)、split的区别Spark(
SparkSql
日萌社
·
2019-03-14 16:15
spark
scala
大数据
上一页
64
65
66
67
68
69
70
71
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他