E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
Spark SQL与Hive on Spark的比较
简要介绍了
SparkSQL
与HiveonSpark的区别与联系一、关于Spark简介在Hadoop的整个生态系统中,Spark和MapReduce在同一个层级,即主要解决分布式计算框架的问题。
weixin_42073629
·
2022-11-01 10:14
Spark
Hive
Hive运行报空指针异常--Hive与
SparkSQL
的小差异
在一次执行代码的过程中,
SparkSQL
执行正常的代码,放到Hive中执行直接抛出空指针异常。查询了一些网上资料,大部分都是回答分区表没有分区,union时候数据类型不一致。
muzichichi
·
2022-11-01 10:14
spark
hive
关于
SparkSQL
那些事(二)----
sparksql
基础语法(下)
在上一篇博客中,重点介绍了如何通过
sparksql
来执行查询操作,虽然可以实现对创建的DateFrame进行操作,但是语法和普通的关系型数据库的SQL操作存在差异。
VogtZhao
·
2022-11-01 10:13
spark
spark SQL语法 与 DSL语法
文章目录
sparkSQL
语法与DSL语法
sparksql
与hive集成SQL与DSL的转换SQL语法DataFrame创建DataFrameDSL语法DSL语法与sql差异RDD与DataFrame互相转换
CODE20220318
·
2022-11-01 10:13
Spark
spark
sql
hive
Hive与
SparkSQL
语法差异
一、相同函数差异1、Spark运行时用到的hash函数,与Hive的哈希算法不同,如果使用hash(),结果和Hive的hash()会有差异2、Hive和
SparkSQL
使用groupingsets生成的
书忆江南
·
2022-11-01 10:43
Hive
hive
spark
大数据
语法
区别
spark_sql 参数调优
sparkSql
参数调优目录前言异常调优spark.sql.hive.convertMetastoreParquetspark.sql.files.ignoreMissingFiles&&spark.sql.files.ignoreCorruptFilesspark.sql.hive.verifyPartitionPathspark.files.ignoreCorruptFiles
weixin_43363407
·
2022-10-30 19:19
spark
spark
hive 读取
sparksql
的orc文件报ArrayIndexOutOfBoundsException:6
报错日志如下可以看出报错的地方再OrcFile的WriterVersion的from方法,定位代码发生在下面代码的values[val]代码段。values的值从代码可以看出values的数据应该为5,见下图代码而传过来的val是6,向上看代码,version来源是文件的meta,应该是spark版本的原因导致hive不支持的version。解决修改OrcFile文件的WriterVersion的
wang972779876
·
2022-10-30 19:48
大数据
spark
hadoop
spark
hive
sql
spark sql读取hive底层_原创-spark sql 写入hive较慢优化思路
在《
sparksql
写入hive较慢原因分析》中已经分析了
sparksql
写入hive分区文件慢的原因,笔者提供几种优化思路供参考:(1)spark直接生成hive库表底层分区文件,然后再使用addpartion
TLOTF
·
2022-10-30 19:48
spark
sql读取hive底层
spark sql读取hive底层_Spark-SQL读不到Hive数据库的新坑指北
背景本文讲的是spark-sql这个命令行工具读取hive数据的情况:Spark是2.3.1,HDP发行版Hive是3.1.0,HDP
SparkSQL
和Hive3的交互问题,用
Sparksql
读取处理hive
唯伟老师
·
2022-10-30 19:48
spark
sql读取hive底层
spark sql读取不到orc格式hive表数据问题
1、问题在做spark数据对账时,对于部分orc格式的hive表,会有
sparksql
读取表数据为空的情况排查过程中发现是因为使用了tez作为hive的执行引擎,然后执行insertselectunionall
Java小田
·
2022-10-30 19:16
#
hive
#
spark
技术踩坑
hive
spark
orc
Spark3.0 Sql 使用HiveTableScanExec 读取Hive orc表源码分析及参数调优
Spark3.0Sql使用HiveTableScanExec读取Hiveorc表源码分析及参数调优1环境准备1.1示例代码importorg.apache.spark.sql.SparkSessionobject
SparkSql
Hive
fir_dameng
·
2022-10-30 19:15
Spark
Spark3.0
Spark
sql
参数调优
源码分析
SparkSQL
on K8s 在网易传媒的落地实践
网易传媒在2021年成功将
SparkSQL
部署到了K8s集群,并实现与部分在线业务的混合部署,到目前已经稳定运行了一年多。
·
2022-10-18 11:18
Spark调优 | 一文搞定 Join 优化
SparkSQL
总体流程在阐述Join实现之前,我们首先简单介绍
SparkSQL
的总体流程,一般地,我们有两种方式使用
SparkSQL
,一种是直接写sql语句,这个需要有元数据库支持,例如Hive等,另一种是通过
zhisheng_blog
·
2022-10-12 19:23
数据库
java
mysql
spark
sql
SparkSQL
项目
YARN产生背景MapReduce1.X的问题:JobTracker的压力太大了;YARN的产生YARN的架构1个RM(ResourceManager)+N个(NodeManager)ResourceManager的职责:一个集群的active状态的RM只有一个,负责整个集群的资源管理和调度;1.处理客户端的请求(启动/杀死)任务;2.启动/监控ApplicationMaster(一个作业对应一个
syc0616
·
2022-10-07 21:16
spark
(4)
SparkSQL
中如何定义UDF和使用UDF
SparkSQL
中用户自定义函数,用法和
SparkSQL
中的内置函数类似;是saprkSQL中内置函数无法满足要求,用户根据业务需求自定义的函数。
·
2022-09-26 11:16
1.Spark 基础解析之概述及集群安装
spark.apache.orgSpark是一种快速、通用、可扩展的大数据分析引擎,2014年2月成为Apache顶级项目,由Scala语言编写目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含
SparkSQL
harveybd
·
2022-09-24 00:46
Spark
Spark
hive on spark 配置 和 spark on hive
SparkonHive:Hive只作为存储元数据,Spark负责SQL解析优化,语法是
SparkSQL
语法,Spark负责采用RDD执行。HiveonSpark配置1)兼容性说明注意:官网下载
GOD_WAR
·
2022-09-21 13:10
hive
spark
spark
hive
大数据系列 |
SparkSQL
&HiveSQL报错解决方法
windowspecdefinition(name#9,_w4#39,ROWSBETWEENUNBOUNDEDPRECEDINGANDUNBOUNDEDFOLLOWING);问题报错原因:查阅资料后发现
sparksql
woshinsy
·
2022-09-21 13:09
#
HiveSQL
大数据和数据仓库
sql
数据库
hive
Hive on Spark配置
SparkonHive:Hive只作为存储元数据,Spark负责SQL解析优化,语法是
SparkSQL
语法,Spark负责采用RDD执行。2.HiveonSpark配置1)兼容性说明注意:
曾牛
·
2022-09-21 13:35
hive
spark
hive
spark
它还支持一组丰富的高级工具,包括用于SQL和结构化数据处理的
SparkSQL
,用于机器学习的MLlib,用于图计算的GraphX和Spar
李洪良_948d
·
2022-09-20 00:03
史上最简单的spark教程第十二章-
SparkSQL
编程Java案例实践(四)
Spark-SQL的Java实践案例(四)数据源:(读取与存储数据,JDBC服务器)史上最简单的spark教程所有代码示例地址:https://github.com/Mydreamandreality/sparkResearch(提前声明:文章由作者:张耀峰结合自己生产中的使用经验整理,最终形成简单易懂的文章,写作不易,转载请注明)(文章参考:Elasticsearch权威指南,Spark快速大数
李时珍皮啊
·
2022-09-09 09:56
#
spark
#
大数据
拥抱大数据
大数据
【
SparkSQL
笔记】
SparkSQL
的Dataset操作大全(二)
SparkSQL
的Dataset/DataFrame操作大全简介说明1.Spark程序中利用SparkSession对象提供的读取相关数据源的方法读取来自不同数据源的结构化数据,转化为Dataset(DataFrame
sdut菜鸟
·
2022-09-09 09:25
Spark
SparkSQL
spark
大数据
SparkSQL
存储优化
问题一:为什么说列式存储优化在
sparksql
场景中是非常重要?到底是优化CPU还是IO?
令狐兄D
·
2022-09-09 09:54
大数据
spark
数据库
大数据
SparkSql
字节码生成技术
[size=large]以具体的SQL语句selecta+bfromtable为例进行说明,下面是它的解析过程:[/size][size=large][b]1.调用虚函数Add.eval(),需确认Add两边数据类型2.调用虚函数a.eval(),需要确认a的数据类型3.确认a的数据类型是int,装箱4.调用虚函数b.eval(),需确认b的数据类型5.确认b的数据类型是int,装箱6.调用int
bbb5b555
·
2022-09-09 09:23
spark
Spark
SQL
虚函数
字节码生成技术
spark
sql
SparkSQL
总结(未完待续)
SparkSQL
一.概述1.1Hiveand
SparkSQL
1.2
SparkSQL
特点1.3DataFrame是什么?1.4DataSet是什么?
斯沃福德
·
2022-09-09 09:22
大数据生态圈
hive
大数据
hadoop
SparkSql
寻医问药问答分析第二次分析
1.爬虫和数据导入miaofu@master:~/healthQA$ls-l-h总用量3.7G-rw-r--r--1miaofumiaofu80M9月2413:222016-05-01content.txt-rw-r--r--1miaofumiaofu90M9月2413:222016-05-02content.txt-rw-r--r--1miaofumiaofu82M9月2413:222016-0
Richard_More
·
2022-09-09 09:22
spark学习笔记
金三银四——大数据/Java面试集锦
下列文章链接请阅读:《金三银四——面试集锦》高级大数据研发工程师面试题总结海量大数据处理面试题和思路总结大数据之数据仓库面试题一文概览数据仓库知识和面试数仓相关面试题经典的
SparkSQL
/Hive-SQL
大数据学习与分享
·
2022-09-08 10:35
面试
工作
大数据
大数据
spark
hadoop
面试
数据仓库
大白话描述SQL面试的知识点
一、SQL(结构化查询语言)SQL的分类:基本需要了解的:MySQL(99SQL)、HQL(HiveSQL)、
SparkSQL
、ImpalaSQL、OracleSQL的应用:MySQL数据库用于存放元数据较多
来自偶然的尘土
·
2022-09-06 09:51
SQL
Interview
MySQL面试
大数据工程师面试
Spark SQL执行多次join后越来越慢,最后出现OOM
目录背景项目简介出现的问题分析解决参考背景项目简介Spark2.4.8版本,主要使用
SparkSQL
的功能。简单的来说,就是使用sparkSession.sql(sql)来实现的。
94甘蓝
·
2022-09-06 08:47
项目中的那些事
sql
spark
大数据
解决Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.1.0:compile (default) on project sp
maven打包时出现了这个错误:Failedtoexecutegoalnet.alchim31.maven:scala-maven-plugin:3.1.0:compile(default)onproject
sparksql
-train
Tai_Park
·
2022-09-05 12:54
java
maven
scala
plugin
SparkSQL
中 RDD、DataFrame、DataSet 三者的区别与 联系
一、RDD【优点:】编译时类型安全编译时就能检查出类型错误面向对象的编程风格直接通过类名点的方式来操作数据【缺点:】序列化和反序列化的性能开销无论是集群间的通信,还是IO操作都需要对对象的结构和数据进行序列化和反序列化。GC的性能开销,频繁的创建和销毁对象,势必会增加GC二、DataFrameDataFrame引入了schema和off-heapschema:RDD每一行的数据,结构都是一样的,这
万里长江横渡
·
2022-09-01 12:46
大数据
spark
分布式
RDD、DataFrame、DataSet 三者的关系
在
SparkSQL
中Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?
万里长江横渡
·
2022-09-01 12:15
spark
推荐系统学习笔记目录
根据b站视频推荐系统算法基础+综合项目实战(大牛老师主讲)整理的学习笔记推荐系统学习笔记目录推荐系统介绍推荐算法HadoopHive&HBaseSparkcore
SparkSQL
&Sparkstreaming
贪钱算法还我头发
·
2022-09-01 07:05
AI
#
Recommendation
System
hive
spark
hadoop
(1)sparkstreaming结合
sparksql
读取socket实时数据流
SparkStreaming是构建在SparkCore的RDD基础之上的,与此同时SparkStreaming引入了一个新的概念:DStream(DiscretizedStream,离散化数据流),表示连续不断的数据流。DStream抽象是SparkStreaming的流处理模型,在内部实现上,SparkStreaming会对输入数据按照时间间隔(如1秒)分段,每一段数据转换为Spark中的RDD
·
2022-08-31 13:46
python像sql一样处理数据_【Python实战】Pandas:让你像写SQL一样做数据分析(一)...
Pandas把结构化数据分为了三类:Series,1维序列,可视作为没有column名的、只有一个column的DataFrame;DataFrame,同
SparkSQL
中的DataFrame一样,其概念来自于
weixin_39576127
·
2022-08-26 07:30
Spark详解(十四):Spark SQL的Join实现
如今
SparkSQL
(Dataset/DataFrame)已经成为Spark应用程序开发的主流,作为开发者,我们有必要了解Join在Spa
哥伦布112
·
2022-08-22 23:24
spark
Spark SQL相关API操作实例 spark研习第五季
三、
SparkSQL
的操作实例1.
SparkSQL
数据加载和保存
SparkSQL
重要是操作DataFrame,DataFrame本身提供了save和load的操作,Load:可以创建DataFrame,
简约AI
·
2022-08-22 23:18
spark
spark
Spark SQL and DataFrames
SparkSQL
andDataFrames
SparkSQL
SparkSQL
概述什么是
SparkSQL
?
brz_em
·
2022-08-22 23:13
Spark
Spark
SQL
and
DataFrames
spark-jion优化
SparkSQL
作为大数据领域的SQL实现,自然也对Join操作做了不少优化,今天主要看一下在
SparkSQL
中对于Join,常见的3种实现。
九指码农
·
2022-08-22 23:11
spark-sql
spark-sql
join
优化
spark-spark-
SparkSQL
的3种Join实现(转)
SparkSQL
作为大数据领域的SQL实现,自然也对Join操作做了不少优化,今天主要看一下在Sp
hjw199089
·
2022-08-22 23:01
[3]Spark
spark
MongoDB + Spark: 完整的大数据解决方案
通用性:我们可以使用
SparkSQL
来执行常规分析,SparkStreaming来流数据处理,以及用Mlib来执行机器学习等。Java,python,scala及R语言的支持
无精疯
·
2022-08-22 23:54
大数据
编程语言
hadoop
数据库
spark
学习spark sql执行计划(一)
后续将持续更新
SparkSQL
架构
SparkSQL
的整体架构如下图所示从上图可见,无论是直接使用SQL语句还是使用DataFrame
purisuit_knowledge
·
2022-08-19 22:44
spark
spark
sql解析
Spark Scala版本 | 选择题汇总
89个题)第1章大数据技术概述(10个题)第2章Scala语言基础(20个题)第3章Spark的设计与运行原理(10个题)第4章Spark环境搭建和使用方法(10个题)第5章RDD编程(10个题)第6章
SparkSQL
程序喵 尤Ni
·
2022-08-19 14:15
#
大数据应用技术
spark
scala
big
data
SparkSql
一、Shark1、简介Shark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎2、优点:1)由于底层的计算采用了Spark,性能比MapReduce的Hive普遍快2倍以上,当数据全部load在内存的话,将快10倍以上,因此Shark可以作为交互式查询应用服务来使用2)Shark是完全兼容Hive的语法,表结构以及UDF函数等,已有的HiveSql可以直接进行迁移至Shark上Sh
zhangronglin1
·
2022-08-18 20:23
SparkSQL
Shark
Dataset
谓词下推
UDF和UDAF
Spark SQL的自定义函数UDF
SparkSQL
的自定义函数UDF1.背景在SQL使用时,会有内置函数,但如果业务比较复杂,但又希望可以有更加灵活的函数使用和复用,则需要自定义UDF,就是userdefinedfunction,可以分为
闻香识代码
·
2022-08-18 20:23
spark
dataframe
scala
spark
apache
spark
scala
分布式计算
大数据
SPark学习笔记:11
SparkSQL
的用户自定义函数UDF、UDAF、UDTF
文章目录UDF用户自定义函数(一对一)说明使用实现方式完整示例UDAF用户自定义聚合函数(多对一)说明使用实现方式UDTF用户自定义表函数(一对多)说明:实现UDF用户自定义函数(一对一)说明UDF输入一条记录,输出一条记录,一对一的关系,有点类似于map算子,是一对一的关系使用UDF的使用有两种方式,一种方式是在SQL中使用,另一种方式是在DSL方式使用使用SQL的方式valmyconcat3=
wangzhongyudie
·
2022-08-18 20:21
Spark
大数据
spark
学习
scala
SparkSQL
中自定义聚合(UDAF)函数
用户自定义函数类别分为以下三种:1).UDF:输入一行,返回一个结果(一对一),在上篇案例使用
SparkSQL
实现根据ip地址计算归属地二中实现的自定义函数就是UDF,输入一个十进制的ip地址,返回一个省份
灵佑666
·
2022-08-18 20:50
spark
big
data
大数据
SparkSQL
用户自定义函数
SparkSQL
允许用户可以通过spark.udf功能添加自定义函数,实现自定义功能。
落花雨时
·
2022-08-18 20:20
大数据
spark
scala
big
data
大数据
JavaSpark |
SparkSQL
| 创建DataSet | UDF与UDAF | 开窗函数
文章目录一、
SparkSQL
1.
SparkSQL
介绍2.Dataset与DataFrame概念解析3.
SparkSQL
的数据源4.
SparkSQL
底层架构5.谓词下推(predicatePushdown
跟乌龟赛跑
·
2022-08-18 20:18
Spark
SparkSQL
创建DataSet
UDF
UDAF
开窗函数
PySpark |
SparkSQL
入门 | DataFrame入门
文章目录一、快速入门1.什么是
SparkSQL
2.为什么要学习
SparkSQL
3.
SparkSQL
特点二、
SparkSQL
概述1.
SparkSQL
和Hive的异同2.
SparkSQL
的数据抽象3.DataFrame
跟乌龟赛跑
·
2022-08-18 20:47
Spark
PySpark
SparkSQL入门
DataFrame入门
上一页
20
21
22
23
24
25
26
27
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他