E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
SparkSQL
来点八股文(一) 分布式理论及应用
6.824GFSVM-FTraftzookeeperEBSAuroraFrangipani链复制与分布式事务SpannerFarm与乐观并发控制memcache与缓存一致性Spark架构RDD算子转换算子执行算子
SparkSQL
ScalaUse-sitevariance
SakamataZ
·
2023-04-06 11:23
#
后端
分布式
hadoop
big
data
【Python笔记】
SparkSQL
の 窗口函数
1spark.sql中の应用1.1基础数据frompyspark.sql.typesimport*schema=StructType().add('name',StringType(),True).add('create_time',TimestampType(),True).add('department',StringType(),True).add('salary',IntegerType(
阳光快乐普信男
·
2023-04-06 11:43
Python笔记
数据分析
SparkSql
动态添加一列递增序列
文章目录zipWithIndex效果:示例zipWithUniqueId效果:示例monotonically_increasing_id效果:示例小结:zipWithIndex效果:将此RDD与其元素索引进行Zips。排序首先基于分区索引,然后是每个分区内项目的排序。因此,第一个分区中的第一个项目得到索引0,最后一个分区中最后一个项目得到最大的索引。这类似于Scala的zipWithIndex,但
南风知我意丿
·
2023-04-06 11:21
scala
spark
开发语言
day05_PySpark
今日内容:1-
SparkSQL
的基本概念2-
SparkSQL
的入门案例3-dataFrame对象详细说明:1-
SparkSql
的基本概念1.1了解什么是
SparkSQL
SparkSQL
是Spark的一个模块
两面三刀流
·
2023-04-06 08:29
大数据
spark
day06_pyspark
今日内容:0-
SparkSQL
中数据清洗的相关API(知道即可)1-
SparkSQL
中shuffle分区设置(会设置)2-
SparkSQL
数据写出操作(掌握)3-Pandas的相关的内容(整体了解)4-
两面三刀流
·
2023-04-06 08:29
大数据
spark
hadoop
【译】MLXTEND之StackingCVRegressor
dataframe大部分使用
SparkSQL
操作,速度会比rdd的方法更快,dataset是dataframe的子集,大部分api是互通的,目前主流是在使用SparkSQ
wong小尧
·
2023-04-06 04:07
三十二、《大数据项目实战之用户行为分析》Spark SQL操作Hive的几种方式
SparkSQL
与Hive整合成功后,可以使用以下几种方式对Hive数据仓库进行操作。1.
SparkSQL
终端操作
SparkSQL
终端启动后,可以直接使用HiveQL语句对Hive数据仓库进行操作。
大数据张老师
·
2023-04-05 23:12
#
hive
大数据
spark
Spark
SQL操作Hive
SparkSQL
Spark~~
SparkSQL
文章目录第1章
SparkSQL
概述1.1
SparkSQL
是什么1.2Hiveand
SparkSQL
1.3
SparkSQL
特点1.3.1易整合1.3.2统一的数据访问1.3.3兼容Hive1.3.4标准数据连接
几窗花鸢
·
2023-04-05 22:06
Spark
spark
hadoop
大数据
Spark SQL详细知识点
SparkSQL
:
SparkSQL
知识点超详细文档!!!可以让基础小白快速入门。有丰富的小案例,边学边练!!
数据行
·
2023-04-05 22:26
大数据学习总结
spark
spark
sql
hadoop
Spark(26) --
SparkSQL
整合hive以及
sparkSQL
使用
SparkSQL
官方文档(3.0.1):sql-programming-guide.htmlsql-data-sources-hive-tables
SparkSQL
主要目的是使得用户可以在Spark上使用
erainm
·
2023-04-05 22:39
大数据学习
spark
实战 - Spark SQL 整合Hive时,报错找不到mysql驱动
在
SparkSQL
整合Hive时,老报错:Thespecifieddatastoredriver("com.mysql.jdbc.Driver")wasnotfoundintheCLASSPATH.PleasecheckyourCLASSPATHspecification
初级以上
·
2023-04-05 22:06
Spark
spark
Spark sql 实战案例
1、
sparksql
操作hivesql添加依赖org.apache.sparkspark-hive_2.112.3.3代码开发importorg.apache.spark.sql.SparkSession
TUJC
·
2023-04-05 22:35
实战案例
spark
Spark框架
一、Spark框架Spark框架模块包含:SparkCore、
SparkSQL
、SparkStreaming、SparkGraphX、SparkMLlib,而后四项的能力都是建立在核心引擎之上。
万里长江横渡
·
2023-04-05 20:33
大数据
spark
大数据
分布式
Spark SQL 小文件问题
SparkSQL
小文件问题1、小文件现象2、小文件产生的原因3、小文件的危害4、如何解决小文件问题4.1spark-sqladaptive框架解决小文件问题4.2CoalesceandRepartitionHint5
Tate小白
·
2023-04-05 16:29
Spark优化
spark
大数据
Spark SQL小文件问题解决方案
SparkSQL
小文件小文件是指文件大小显著小于hdfsblock块大小的的文件。过于繁多的小文件会给HDFS带来很严重的性能瓶颈,对任务的稳定和集群的维护会带来极大的挑战。
雾岛与鲸
·
2023-04-05 16:57
spark
spark
sql
big
data
Spark SQL 结构化数据文件处理
目录
SparkSQL
的基础知识一、
SparkSQL
的简介二.
SparkSQL
架构
SparkSQL
的基础知识
SparkSQL
是Spark用来处理结构化数据的一个模块,它提供了一个叫作DataFrame的编程模型
发量不足
·
2023-04-05 16:51
数据库
spark
sql
spark
分布式
sql
hadoop
数据库
Spark SQL:Spark SQL编程
文章目录
SparkSQL
:
SparkSQL
编程1、实验描述2、实验环境3、相关技能4、知识点5、实现效果6、实验步骤7、总结
SparkSQL
:
SparkSQL
编程1、实验描述学习使用
SparkSQL
,并完成相关的实验操作
一顿吃不饱
·
2023-04-05 16:19
大数据
Spark
SQL
大数据
spark
sparksql
小文件的处理以及其他优化
调优参数:
SparkSQL
的表中,经常会存在很多小文件(大小远小于HDFS块大小),每个小文件默认对应Spark中的一个Partition,也就是一个Task。
leaf______
·
2023-04-05 16:46
spark
大数据
scala
Spark SQL解析json文件
SparkSQL
解析json文件一、get_json_object二、from_json三、explode四、案例:解析json格式日志数据数据处理先介绍一下会用到的三个函数:get_json_object
简单不过l
·
2023-04-05 16:45
Spark
spark
sql
json
spark sql结构化数据文件处理-dataframe
sparksql
这个类似于hive为mapreduce提供上层接口,使数据分析师可以不必为写mapreduce的Java代码而烦恼,同样并不是所有工程师都会Scala语言,所以
sparksql
就是做这个事情的
eyexin2018
·
2023-04-05 16:11
spark学习之路
spark
linux
Spark SQL小文件处理
使用
sparksql
时候,小文件问题是避免不了的,当我们从hive中读取数据表时,默认就是200个分区,如果不加以处理,当我们在将数据写入到表中时,就会形成200个小文件,这样对于hdfs来说是很不友好的
飞天小老头
·
2023-04-05 16:52
SPARK
spark
sql
hive
Spark SQL 小文件问题处理
1.1、小文件危害大量的小文件会影响Hadoop集群管理或者Spark在处理数据时的稳定性:1.
SparkSQL
写Hive或者直接写入HDFS,过多的小文件会对NameNode内存管理等产生巨大的压力,
宝哥大数据
·
2023-04-05 16:50
#
spark
spark
sql
hadoop
Apache Spark大数据分析入门(一)
全文共包括四个部分:第一部分:Spark入门,介绍如何使用Shell及RDDs第二部分:介绍
SparkSQL
、Dataframes及如何结合Spark与Cassandra一起使用第三部分:介绍Spar
金乐笑
·
2023-04-05 11:45
SparkSQL
-liunx系统Spark连接Hive
目录先来到spark312的jar包存放目录中:复制jar包到该目录:来到conf目录:把hive312/conf中的hive-site.xml复制到spark312/conf目录下:修改hive-site.xml文件:下面是里面的所有配置配置完成,开始测试:先启动hadoop:启动hive的RunJar服务:jps查看启动的服务:登录hive:查看默认库default以及表的名字:开启spark
难以言喻wyy
·
2023-04-05 07:00
hive
spark
大数据
Spark性能优化之道——解决Spark数据倾斜的N种姿势
Spark3.0已经发布半年之久,这次大版本的升级主要是集中在性能优化和文档丰富上,其中46%的优化都集中在
SparkSQL
上,SQL优化里最引人注意的非AdaptiveQueryExecution莫属了
TASKCTL
·
2023-04-05 05:34
SparkSQL
查询
SparkSQL
查询两种查询方式:代码:importorg.apache.spark.rdd.RDDimportorg.apache.spark.sql.types.
万事无Bug
·
2023-04-05 02:51
Spark
spark
sql
数据库
SparkMySql总结
SparkSQL
基本介绍什么是
SparkSQL
?用于处理结构化数据的Spark模块。可以通过DataFrame和DataSet处理数据。
大数据狂人
·
2023-04-05 02:21
SparkMysql
sparksql
更新mysql表_
sparksql
读取mysql表的两种方式
一、mysql数据表及数据mysql>usetest;ReadingtableinformationforcompletionoftableandcolumnnamesYoucanturnoffthisfeaturetogetaquickerstartupwith-ADatabasechangedmysql>showtables;+----------------+|Tables_in_test|
四达印务
·
2023-04-05 02:48
大数据之非常详细Spark SQL操作Hive的读写过程
大数据大数据之非常详细
SparkSQL
操作Hive的读写过程大数据目录大数据一、
SparkSQL
架构和原理1.shark和hive关系2.Hive的两种功能2.1作为数据仓库提供存储功能2.2作为查询引擎提供检索查询功能
派大星子fff
·
2023-04-05 02:13
大数据
大数据
hive
spark
sql
数据库
Mysql查询+hiveSQL查询+
SparkSQL
查询对比(个人总结)
而hiveSQL和
sparkSQL
的查询不存在这种问题,计算完成后的数据都是分布式存储的。
Be An Author
·
2023-04-05 01:29
烦人的中间件
SparkSql
拉取Hive上的数据
想要读取Hive的数据我们首先要从集群中把需要的xml文件获取下来,分别是core-site.xml、hdfs-site.xml、hive-site.xml,将这三个文件放在项目的resource目录下,spark运行的时候会自动读取在原本的Sparkpom文件中导入spark-hive的包,大家根据自己的scala和spark的版本去选择自己合适的,我用的如下org.apache.sparksp
尘世壹俗人
·
2023-04-05 01:51
大数据Spark技术
大数据
spark
spark sql(六)
sparksql
自定义数据源
1、背景在上一章节我们知道
sparksql
默认支持avro、csv、json、kafka、orc、parquet、text、jdbc等数据源(hive可以看做是几种文件数据源的集合),如果找不到对应的数据源
Interest1_wyt
·
2023-04-05 01:15
大数据
spark
大数据
hadoop
spark sql(七)源码解析 -
sparksql
什么时候将时间类型转换成整型或者长整型,又是什么时候将整型或长整型转为时间类型?
1、背景在做sql下推逻辑时,因为时间类型的自动转换导致自定义的下推逻辑失效,为了深入了解问题的原因和更好的解决问题,所以准备源码追踪下
sparksql
转换类型的具体时间点。
Interest1_wyt
·
2023-04-05 01:15
大数据
spark
数据库
大数据
spark sql(五)
sparksql
支持查询哪些数据源,查询hive与查询mysql的区别
1、数据源介绍
sparksql
默认查询的数据源是hive数据库,除此之外,它还支持其它类型的数据源查询,具体的到源码中看一下:可以看到
sparksql
支持查询的数据源有CSV、parquet、json、
Interest1_wyt
·
2023-04-05 01:37
大数据
hive
mysql
spark
Impala基本介绍及架构介绍
impala基本介绍impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快3到10倍,其sql查询比
sparkSQL
还要更加快速,号称是当前大数据领域最快的查询
FOX有爱
·
2023-04-04 22:02
大数据
架构
hive
数据仓库
OLTP 和 OLAP 的区别 ;hive与其它框架的区别
导航hiveoutlineOLTP和OLAP的区别hive和mysql主要区别hive和hbase的区别hivesql和
sparksql
的区别hiveonspark和sparkonhive的区别hiveoutlinehiveoutlineOLTP
塞上江南o
·
2023-04-04 10:32
Hive
hive
Spark-SQL连接Hive 的五种方法
目录一、Spark-SQL是什么二、Hiveand
SparkSQL
三、Spark-SQL特点四、Spark-SQL连接Hive1)内嵌的HIVE2)外部的HIVE3)运行Sparkbeeline4)运行
羙橘
·
2023-04-04 07:35
hive
spark
sql
大数据
学习
Spark3.0新特性-AQE
《图解Spark大数据快速分析实战》(王磊)【摘要书评试读】-京东图书https://item.jd.com/13613302.htmlAQE1.AQE的概念
SparkSQL
是Spark开发中使用最广泛的引擎
wangleigiser
·
2023-04-04 06:44
Spark专栏
大数据
big
data
数据库
spark
大数据
数据仓库
SparkSQL
篇(一) DataFrame创建
DataFrame对象构成层面对象说明结构StructType描述整个DataFrame的表结构StructField描述一个列的信息数据Column记录一列数据并包含列的信息Row记录一行数据DataFrame对象创建people.txt文件内容如下Hichael,29Andy,30Justin,192.1基于RDD的创建方式一又可称从RDD转化为DafaFrame[利用反射机制推断RDD模式]
CMCST
·
2023-04-04 02:39
spark
spark
big
data
大数据
【Spark重点难点07】
SparkSQL
YYDS(加餐)!
本文已经加入「大数据成神之路PDF版」中提供下载。你可以关注公众号,后台回复:「PDF」即可获取。更多PDF下载可以参考:《重磅,大数据成神之路PDF可以分类下载啦!》Spark重点难点系列:《【Spark重点难点01】你从未深入理解的RDD和关键角色》《【Spark重点难点02】你以为的Shuffle和真正的Shuffle》《【Spark重点难点03】你的数据存在哪了?》《【Spark重点难点0
王知无(import_bigdata)
·
2023-04-03 21:11
大数据
数据库
python
java
spark
Spark异常处理——Shuffle FetchFailedException
报错方式missingoutputlocationshufflefetchfaild
SparkSQL
shuffle报错样例org.apache.spark.shuffle.MetadataFetchFailedException
西二旗老司机
·
2023-04-03 10:46
PySpark数据分析
SparkSQL
是ApacheSpark用于处理结构化数据的模块。
行路者-慢慢来
·
2023-04-03 07:58
大数据
算法
人工智能
数据分析
spark
数据挖掘
Big Data Management笔记04:
SparkSQL
和PySpark MLlib
BigDataManagement笔记04:
SparkSQL
和PySparkMLlib
SparkSQL
DataframeCreateDataframeDataframeOperationsMoreonDataframesColumnarStorage
MYJace
·
2023-04-03 07:08
学习笔记
机器学习
hadoop
spark
hdfs
PySpark数据分析基础:PySpark基础功能及DataFrame操作基础语法详解
目录前言一、PySpark基础功能1.
SparkSQL
和DataFrame2.PandasAPIonSpark3.Streaming4.MLBase/MLlib5.SparkCore二、PySpark依赖
fanstuck
·
2023-04-03 07:31
数据分析
python
pandas
spark
大数据
Spark高手之路1—Spark简介
从时间节点上来看2.2从功能上来看3.SparkOrHadoop4.Spark4.1速度快4.2易用4.3通用4.4兼容5.Spark核心模块5.1Spark-Core和弹性分布式数据集(RDDs)5.2
SparkSQL
5.3SparkStreaming5.4SparkMLlib5.5SparkGraphXSpark
W_chuanqi
·
2023-04-03 07:30
Spark高手之路
spark
hadoop
大数据
十二、Spark SQL数据源 - Hive表
SparkSQL
支持读写Hive
SparkSQL
还支持读取和写入存储在ApacheHive中的数据。
zlwm000
·
2023-04-03 06:38
hive
spark
sql
Spark-SQL连接Hive 的五种方法
Spark-SQL连接HiveApacheHive是Hadoop上的SQL引擎,
SparkSQL
编译时可以包含Hive支持,也可以不包含。
谷谷奇
·
2023-04-03 06:03
hive
spark
sql
spark sql整合hive-重要
sparksql
整合hive在
sparksql
中使用hive的元数据
sparksql
是使用spark进行计算的,hive使用MR进行计算的1、在hive的hive-site.xml修改一行配置,增加了这一行配置之后
a-tao必须奥利给
·
2023-04-03 06:56
hive
spark
sql
hadoop
大数据
hive on spark 集成(spark-sql 整合hive)
SparkSQL
整合hive就是获取hive表中的元数据信息(在mysql中),然后通过
SparkSQL
来操作数据。
Siobhan. 明鑫
·
2023-04-03 06:26
大数据环境搭建
hive
spark
sql
【大数据】Spark及
SparkSQL
数据倾斜现象和解决思路
数据倾斜分类join其中一个表数据量小,key比较集中分发到某一个或几个reduce的数据远高于平均值大表与小表,空值过多这些空值都由一个reduce处理,处理慢groupbygroupby维度太少,某字段量太大处理某值的reduce非常慢countdistinct某些特殊值过多处理此特殊值的reduce慢数据倾斜原因分析数据倾斜表现任务日志进度长度为99%,在日志监控进度条显示只有几个reduc
笑起来贼好看
·
2023-04-03 06:44
大数据
Spark
大数据
spark
scala
上一页
14
15
16
17
18
19
20
21
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他