E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
Spark RDD Transformation 练习
在过去的几个月里,我断断续续写了Spark,
SparkSQL
,SparkStreaming相关的文章,自己也对Spark有了一个基本的认识。但是仅仅这样不能算学会了spark。
the_conquer_zzy
·
2020-09-13 13:43
spark
大数据
spark-sql读取不到parquet格式的hive表
当向Hivemetastore中读写Parquet表时,
SparkSQL
将使用
SparkSQL
自带的ParquetSerDe(SerDe:Serialize/Deserilize的简称,目的是用于序列化和反序列化
x950913
·
2020-09-13 10:10
spark
PySpark SQL——SQL和pd.DataFrame的结合体
SQL/DataFrame,实际上从名字便可看出这是关系型数据库SQL和pandas.DataFrame的结合体,功能也几乎恰是这样,所以如果具有良好的SQL基本功和熟练的pandas运用技巧,学习Py
SparkSQL
Python数据之道
·
2020-09-13 08:32
数据库
大数据
python
编程语言
java
spark系列二:sparkcore和
sparksql
综合案例
数据格式:日期用户搜索词城市平台版本需求:1、筛选出符合查询条件(城市、平台、版本)的数据2、统计出每天搜索uv排名前3的搜索词3、按照每天的top3搜索词的uv搜索总次数,倒序排序4、将数据保存到hive表中1、针对原始数据(HDFS文件),获取输入的RDD2、使用filter算子,去针对输入RDD中的数据,进行数据过滤,过滤出符合查询条件的数据。2.1普通的做法:直接在fitler算子函数中,
cjx42518041
·
2020-09-13 08:31
spark系列二:jdbc数据源实例
SparkSQL
支持使用JDBC从关系型数据库(比如MySQL)中读取数据。读取的数据,依然由DataFrame表示,可以很方便地使用SparkCore提供的各种算子进行处理。
cjx42518041
·
2020-09-13 08:31
spark系列二:开窗函数实例
Spark1.4.x版本以后,为
SparkSQL
和DataFrame引入了开窗函数,比如最经典,最常用的,row_number(),可以让我们实现分组取topn的逻辑。
cjx42518041
·
2020-09-13 08:31
sparkSQL
之数据源读取parquet、json、csv案例
1、读取parquet数据源importorg.apache.spark.sql.SQLContextimportorg.apache.spark.{SparkConf,SparkContext}/***CreatedbyAdministratoron2017/2/3.*/objectParquetLoadData{defmain(args:Array[String]):Unit={valconf
xuehuagongzi000
·
2020-09-13 07:40
spark
DF保存到mysql中或者保存成.csv .json parquet文件
DataFrame保存到mysqlimportjava.util.Propertiesimportcn.doit.
sparksql
.day01.utils.SparkUtilsimportorg.apache.spark.sql
大大盒子
·
2020-09-13 06:55
spark
spark
DataFrame:通过
SparkSql
将scala类转为DataFrame
importjava.text.DecimalFormatimportcom.alibaba.fastjson.JSONimportcom.donews.data.AppConfigimportcom.typesafe.config.ConfigFactoryimportorg.apache.spark.sql.types.{StructField,StructType}importorg.apa
北京小辉
·
2020-09-13 06:56
十二.
SparkSQL
中json数据文件转换成parquet文件
第一步首先在本地创建一个json文件,名字叫json_schema_infer.json,文件中数据的格式如下:{"name":"liguohui","gender":"M","height":160}{"name":"zhangsan","gender":"F","height":175,"age":26}{"name":"wangwu","gender":"M","height":180.3}
飞翔的小宇宙
·
2020-09-13 05:51
Spark
SQL
(转载)Spark sql之DataFrame基本操作
1、创建DataFrame本文所使用的DataFrame是通过读取mysql数据库获得的,代码如下:valspark=SparkSession.builder().appName("
SparkSQL
basicexample
楓尘林间
·
2020-09-13 05:30
Spark
SQL
DateFrame
pyspark文件读写示例-(CSV/JSON/Parquet-单个或多个)
#创建或获取会话importpysparkfrompyspark.sqlimportSparkSessionspark=SparkSession.builder.appName('Python
SparkSQL
example
詩和遠方
·
2020-09-13 04:50
Python
ETL/BI/大数据
atlas 初体验
介绍最近由于内部需要做
sparksql
的字段血缘关系,碰巧看到github有人提供了spark的atlas插件,准备调研一下看能否满足需求。介绍:Atlas是Hadoop的数据治理和元数据框架。
甄情
·
2020-09-13 02:05
大数据
atlas
数据血缘
字段血缘
spark
sql血缘
hive
sql血缘
【巨杉数据库SequoiaDB】巨杉Tech | 巨杉数据库数据高性能数据导入迁移实践
SequoiaDB一款自研金融级分布式数据库产品,支持标准SQL和分布式事务功能、支持复杂索引查询,兼容MySQL、PGSQL、
SparkSQL
等SQL访问方式。
SequoiaDB_Official
·
2020-09-13 01:40
SequoiaDB巨杉数据库
视频教程
巨杉Tech |
SparkSQL
+SequoiaDB 性能调优策略
当今时代,企业数据越发膨胀。数据是企业的价值,但数据处理也是一种技术挑战。在海量数据处理的场景,即使单机计算能力再强,也无法满足日益增长的数据处理需求。所以,分布式才是解决该类问题的根本解决方案。而在分布式领域,有两类典型产品,分别是分布式存储和分布式计算。用户只有将两者的特性充分利用,才可以真正发挥分布式架构的存储和计算能力。本文介绍SequoiaDB(分布式存储)和Spark(分布式计算)两款
SequoiaDB_Official
·
2020-09-13 01:39
SequoiaDB巨杉数据库
教程
sparksql
通过hash算法使得总体性能提高39%
优化前总任务使用时间:1小时43min=103min优化后,总任务使用时间:1小时20分钟=80min优化的效率提升了,1-80/130=39%性能提高了39%默认不配置exutors-coresexcutor-cores为4那么如下配置:那么没利用的cores就只有19*4=76个core,提交的脚本如下:spark-submit--deploy-modecluster--masteryarn-
功夫老五
·
2020-09-12 23:21
hive
spark
sparkSQL
的整体实现框架
这篇博客的目的是让那些初次接触
sparkSQL
框架的童鞋们,希望他们对
sparkSQL
整体框架有一个大致的了解,降低他们进入spark世界的门槛,避免他们在刚刚接触
sparkSQL
时,不知所措,不知道该学习什么
??yy
·
2020-09-12 20:05
开源大数据框架的SQL化
大数据框架,在易用性方面,都尽量SQL化,如:HBase之上的Phoenix、FackbookHive、
SparkSQL
、FackbookPresto、ClouderaImpala、Kylin、ESSQL
bigdata-余建新
·
2020-09-12 18:45
other
SparkSQL
语法及API
2019独角兽企业重金招聘Python工程师标准>>>
SparkSQL
语法及API一、
SparkSql
基础语法1、通过方法来使用1.查询df.select("id","name").show();1>带条件的查询
weixin_34129145
·
2020-09-12 11:48
Spark SQL入门、基础语法、API
SparkSQL
概述Spark为结构化数据处理引入了一个称为
SparkSQL
的编程模块。
Winyar Wen
·
2020-09-12 10:54
大数据
[Spark2.0]Spark SQL, DataFrames 和Datasets指南
综述
SparkSQL
是Spark提供的针对结构化数据处理的模块。不同于基本的SparkRDDAPI,
SparkSQL
提供的接口提供了更多的关于数据和计算执行的信息。
yhao浩
·
2020-09-12 09:51
spark
Spark学习笔记
本文整理自《Spark快速大数据分析》,其中
SparkSQL
还没学习,日后补上第二章Spark入门RDD(弹性分布式数据集)是Spark对分布式数据和计算的基本抽象。
银色子弹lx
·
2020-09-12 09:44
Spark
理解Spark中
SparkSQL
模块DataSource使用
SparkSQL
支持通过DataFrame接口对各种数据源进行操作。DataFrame可以使用关系转换进行操作,也可以用于创建临时视图。将DataFrame注册为临时视图允许您对其数据运行SQL查询。
杨鑫newlfe
·
2020-09-12 09:43
Scala
大数据挖掘与大数据应用案例
Spark SQL---入门(一)
SparkSQL
---入门1.入门1.1起点:SparkSession1.2创建数据框1.3无类型的数据集操作(又名DataFrame操作)1.4以编程方式运行SQL查询1.5全局临时视图1.5创建数据集
Zhouxk96
·
2020-09-12 08:10
Spark高级操作之json复杂和嵌套数据结构的操作一
一,基本介绍本文主要讲spark2.0版本以后存在的
Sparksql
的一些实用的函数,帮助解决复杂嵌套的json数据格式,比如,map和嵌套结构。
大数据星球-浪尖
·
2020-09-12 07:46
根据key合并两个rdd有四种方式
根据key合并两个rdd有四种方式:1.用
SparkSQL
进行join2.用双重循环连接两个rdd3.用rdd的join方法,如下所示,合并的key不能是Tuple4.rdd中的元素仍然是键值对,只不过值是
千淘万漉
·
2020-09-12 06:32
云计算/大数据
Hive on Mapreduce、Hive on Spark、
SparkSQL
、Spark on Hive
HiveonMapreduce执行流程如下图示Step1:UI(userinterface)调用executeQuery接口,发送HQL查询语句给DriverStep2:Driver为查询语句创建会话句柄,并将查询语句发送给Compiler,等待其进行语句解析并生成执行计划Step3and4:Compiler从metastore获取相关的元数据Step5:元数据用于对查询树中的表达式进行类型检查,
L13763338360
·
2020-09-12 02:55
spark
Spark之SparkSession
最近学习
SparkSql
时接触了SparkSession。SparkSession是Spark2.0引如的新概念。
JasonQ_NEU
·
2020-09-11 22:56
spark
Spark知识点总结导航
----第一章SparkShell-----第二章执行spark程序-----第二章spark集群遇到的问题解决-----第三章sparkshuffle-----第四章RDD-----第五章共享变量-
SparkSQL
落落free
·
2020-09-11 22:04
大数据阶段
--------Spark
--------Kafka
--------Flume
字节跳动在Spark SQL上的核心优化实践
字节跳动在
SparkSQL
上的核心优化实践大数据架构今天以下文章来源于字节跳动技术团队,作者郭俊字节跳动技术团队字节跳动的技术实践分享10月26日,字节跳动技术沙龙|大数据架构专场在上海字节跳动总部圆满结束
Hero.Lin
·
2020-09-11 17:10
大数据
spark
SQL
如何系统的学习大数据框架 hadoop 和spark?
同样,在spark的基础上也衍生出了很多组件,比如sparkstreaming、
sparkSQL
、mllib等。其中s
大数据开发交流
·
2020-09-11 16:31
大数据学习
大数据分析
大数据案例
大数据工程师
大数据
大数据编程
大数据时代
大数据挖掘
大数据开发
Spark SQL应用解析
一
SparkSQL
概述1.1什么是
SparkSQL
SparkSQL
是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。
dawandi6620
·
2020-09-11 14:47
spark大数据分析:spark Struct Strreaming(20)结构化流认知
文章目录优点案例编程模型输出模式优点structStreaming构建在
sparkSQL
之上,将数据以增量的方式连续的读物到DataFrame,DataSet中,并可以像使用静态的DataFrame.DataSet
_尽_际
·
2020-09-11 11:27
spark-鲨鱼
Zeppelin的入门使用系列之使用Zeppelin来运行Spark SQL(四)
前期博客Zeppelin的入门使用系列之使用Zeppelin来创建临时表UserTable(三)1、运行年龄统计的
SparkSQL
(1)输入
SparkSQL
时,必须在第一行输入%sql。
weixin_34261739
·
2020-09-11 11:31
sparksql
实现单词计数
1、创建SparkSessionvalsparkSession=SparkSession.builder().appName("SparkWordCount").master("local[2]").getOrCreate()2、加载数据,使用dataset处理数据集read来读取可以直接返回DataSet[String],这是个比RDD更高级的数据集它返回一个列名为value的视图+------
方兵兵
·
2020-09-11 10:05
大数据
第72课:Spark UDF和UDAF解密学习笔记
SparkUDF和UDAF解密学习笔记本期内容:1SparkUDF实战2SparkUDAF实战UDAF=USERDEFINEAGGREGATEFUNCTION下面直接实战编写UDF和UDAF:package
SparkSQL
ByScalaimportorg.apache.spark.sql.expressions
梦飞天
·
2020-09-11 10:38
Spark
SparkSql
读取多行json文件产生-- _corrupt_record: string (nullable = true)错误!!
所用的软件版本:spark2.3.0hbase1.4.6IDEA2019.1在利用spark.read.json("e:/test.json")读取多行的json文件,利用DataFrame的DF.show()显示,除了_corrupt_record这行有全部的json内容,其他column全部都是null,DF.printSchema()的结果是:root|--_corrupt_record:s
reedom1991
·
2020-09-11 10:56
spark
pyspark+dataframe+wordcount 版本
Java、python版本,且为基于RDD数据格式的方法,该方法较简单,但门槛较高,若采用dataframe的方法,则结果更好理解,但查询函数的过程较为复杂,网上没有找到合适的版本,所以自己写一个,可以采用
sparksql
刁小蛮
·
2020-09-11 09:07
pyspark
大数据
pyspark
wordcount
dataframe
sparksql
2.x 写WordCount
packagecom.ws.
sparksql
importorg.apache.spark.sql.
念念不忘_
·
2020-09-11 08:01
spark
使用Spark编写一个简单的word count单词统计及Spark基本架构及运行原理
1、Spark基本架构及原理Spark:spark只是一个计算框架,它的能力是在现有数据的基础上提供一个高性能的计算引擎,然后提供一些上层的处理工具比如做数据查询的
SparkSQL
、做机器学习的MLlib
Mr_wang0916
·
2020-09-11 07:45
spark常见问题处理
1、sparkthriftserver报以下错误,其他诸如hive/
sparksql
等方式均正常ERRORActorSystemImpl:Uncaughtfatalerrorfromthread[sparkDriverActorSystem-akka.actor.default-dispatcher
风是外衣衣衣
·
2020-09-11 07:56
spark
spark
sparksql
优化之路
最近一直由于公司一个重要的作业,从Tez切换到
sparksql
,需要对
sparksql
进行优化。
zxl333
·
2020-09-11 06:00
Spark
spark2学习(3) 之Spark SQL
SparkSQL
是用于结构化数据处理的Spark模块。与基本的SparkRDDAPI不同,
SparkSQL
提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。
willwill1101
·
2020-09-11 05:58
spark
Spark SQL 与HQL的区别
一、什么是
SparkSQL
?
司徒宇恒
·
2020-09-11 05:17
大数据复习
Spark SQL 与 Hive 的区别简介【学习笔记】
一、什么是
SparkSQL
?
Diego_zh
·
2020-09-11 05:58
学习笔记
spark读取多个目录下多个文件
最近项目要用准时数据,于是改用
sparkSQL
还对数据进行统计。kafka落到HDFS上是按照天分区,小时文件。
weixin_42412645
·
2020-09-11 05:54
Spark
SparkSql
控制输出文件数量且大小均匀(distribute by rand())
@羲凡——只为了更好的活着
SparkSql
控制输出文件数量且大小均匀(distributebyrand())Q:Spark如何控制文件你输出数量?
羲凡丞相
·
2020-09-11 05:38
初学者【 Cannot start process, the working directory 'E:\
sparksql
33\
sparksql
3】
在对程序进行编译时出现Cannotstartprocess,theworkingdirectory'E:\
sparksql
33\
sparksql
3解决办法:1.点击导航栏run---->Editconfigurations
爱哭的小孩TnT
·
2020-09-11 05:31
sparksql
优化,性能提高了3-4倍
这几天代码跑得特别慢,一个大sql跑4-6h,着实急人,大sql如下:valbidDetailDf=ss.sql(s"""selectapp,day,hour,adx,os,osv,country,impType,sum(cnt)ascnt,sum(request)asrequest,sum(response)asresponse,sum(bid)asbid,sum(timeout)astimeo
功夫老五
·
2020-09-11 05:59
spark
spark:
sparksql
:读取文件/读取hive表/写出到hive/写出到mysql
packagebi.tagimportjava.util.Propertiesimportbi.utils.{ConfigUtils,KoboldAppUtil}importorg.apache.log4j.{Level,Logger}importorg.apache.spark.sql.{SaveMode,SparkSession}importorg.slf4j.LoggerFactory/**
花和尚也有春天
·
2020-09-11 05:57
sparkSQL
spark
sparksql
上一页
30
31
32
33
34
35
36
37
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他