E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
SparkSQL
(1):
SparkSQL
和Hive集成
一、
SparkSQL
功能
SparkSQL
需要的是hive表的元数据,如果配置了metastore的服务,直接去服务里面拿,如果没有,那就只能去mysql中间拿二、配置和hive集成1.将hive的hive-site.xml
RayBreslin
·
2022-05-31 07:13
Spark
大数据开发
SparkSQL
SparkSQL
Hive
集成
FlinkCDC-Hudi:Mysql数据实时入湖全攻略二:Hudi与Spark整合时所遇异常与解决方案
#
SparkSQL
forspark3.1spark-sql--packagesorg.apache.hudi:hudi-spark3.1.2-bundle_2.12:0.10.1,org.apache.spark
大数据点灯人
·
2022-05-31 07:11
Hudi
Spark
spark
apache
big
data
数据仓库
【Spark实训】-- Spark SQL结构化数据文件处理 ②
1、训练要点(1)、
SparkSQL
CLI的配置。(2)、在
SparkSQL
CLI中操作Hive表。2、需求说明某航空公司积累了大量的会员档案和其乘坐航班记录。
⚆Pearl
·
2022-05-24 10:04
spark
#
后端实训题
spark
sql
hive
“Spark三剑客”之SparkCore和
SparkSql
学习笔记(零基础入门)(一)
目录1Spark的介绍1.1Spark的定义1.2Spark为什么比MapReduce快?1.3RDD弹性式分布式数据集1.4MasterURL1.5Spark为什么很占内存?1.6SparkCount的典型案例(真我瞎写的,非官方)1.7spark代码的核心框架(指的是main方法里的)2RDD的那些事2.1介绍RDD2.2Transformation算子2.2.1map算子2.2.2flatm
林柚晞你今天博学了吗
·
2022-05-17 16:46
大数据那些事
spark
bigdata
大数据开发
SparkSQL
学习笔记----Parquet数据源之合并元数据
1、使用场景如同ProtocolBuffer,Avro,Thrift一样,Parquet也是支持元数据合并的。用户可以在一开始就定义一个简单的元数据,然后随着业务的需要,逐渐往元数据中添加更多的列。在这种情况下,用户可能会创建多个Parquet文件,有着多个不同的但是却互相兼容的元数据。Parquet数据源支持自动推断出这种情况,并且进行多个Parquet文件的元数据的合并。2、开启Parquet
PZ~浪味仙
·
2022-05-17 16:08
Spark
SQL
SparkSQL
初级(聚合,Parquet,JSON,JDBC,Hive表)
紧接着系列博客上一篇Spark05-
SparkSQL
入门的学习,这篇博客主要讲解一些
SparkSQL
初级使用。
提灯寻梦在南国
·
2022-05-17 16:54
大数据
Spark
Parquet
Hive
table
Spark SQL下的Parquet使用最佳实践和代码实战
一:
SparkSQL
下的Parquet使用最佳实践1,过去整个业界对大数据的分析的技术栈的Pipeline一般分为一下两种方式:A)DataSource->HDFS->MR/Hive/Spark(相当于
靖-Drei
·
2022-05-17 16:40
spark-sql
SPARK-SQL
第65课:Spark SQL下Parquet深入进阶
内容:
SparkSQl
下的Parquet的序列化
SparkSQL
下的Parquet源码解析
SparkSQL
的Parquet总结一、
SparkSQl
下的Parquet的序列化1.block:parquet
StriveFarrell
·
2022-05-17 16:39
Parquet
SparkSQL
spark
SparkSQL
Parquet
Spark SQL的Parquet那些事儿.docx
Parquet是一种列式存储格式,很多种处理引擎都支持这种存储格式,也是
sparksql
的默认存储格式。
浪尖聊大数据-浪尖
·
2022-05-17 16:37
Spark(25) -- Spark SQL读取数据(mysql、json、parquet、csv、普通文本)
SparkSQL
可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame,通过对DataFrame一系列的计算后,还可以将数据再写回关系型数据库中。
erainm
·
2022-05-17 16:12
大数据学习
spark
手把手教你 在IDEA搭建
SparkSQL
的开发环境
1.创建maven项目在IDEA中添加scala插件并添加scala的sdkhttps://www.cnblogs.com/bajiaotai/p/15381309.html2.相关依赖jar的引入配置pom.xml2.1pom.xml示例(spark版本:3.0.0sca
学而不思则罔!
·
2022-05-14 18:00
在字节跳动,一个更好的企业级
SparkSQL
Server这么做
SparkSQL
是Spark生态系统中非常重要的组件。面向企业级服务时,
SparkSQL
存在易用性较差的问题,导致难满足日常的业务开发需求。
·
2022-05-11 17:19
在字节跳动,一个更好的企业级
SparkSQL
Server这么做
SparkSQL
是Spark生态系统中非常重要的组件。面向企业级服务时,
SparkSQL
存在易用性较差的问题,导致难满足日常的业务开发需求。
字节跳动数据平台
·
2022-05-11 16:00
Spark——安装及使用
目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含
SparkSQL
、SparkStreaming、GraphX、MLlib等子项目,S
wangzhangni
·
2022-05-03 07:45
大数据Hadoop之——Spark on Hive 和 Hive on Spark的区别与实现
这里可以理解为Spark通过
SparkSQL
使用Hive语句操作Hive表,底层运行的还是SparkRDD。
大数据老司机
·
2022-04-30 08:44
大数据Hadoop之——Spark SQL+Spark Streaming
一、
SparkSQL
概述
SparkSQL
是Spark用来处理结构化数据的一个模块,它提供了两个编程抽象叫做DataFrame和DataSet并且作为分布式SQL查询引擎的作用,其实也是对RDD的再封装。
大数据老司机
·
2022-04-30 08:27
Spark SQL 字段血缘在 vivo 互联网的实践
SparkSQL
相对于Hive来说通常情况下效率会比较高,对于运行时间、资源的使用上面等都会有较大的收益。平台计划将Hive任务迁移到
SparkSQL
上,同时也需要实现字段血缘的功能。
·
2022-04-25 15:21
spark
Spark SQL 字段血缘在 vivo 互联网的实践
SparkSQL
相对于Hive来说通常情况下效率会比较高,对于运行时间、资源的使用上面等都会有较大的收益。平台计划将Hive任务迁移到
SparkSQL
上,
·
2022-04-25 09:47
sparksql大数据
Spark:离线综合案例
分布式计算平台Spark:离线综合案例一、课程回顾
SparkSQL
使用开发接口DSL:使用函数来对表进行处理,类似于RDD的编程,表的体现:DF、DSSQL语法函数:select、where、groupBy
章鱼哥TuNan&Z
·
2022-04-24 14:39
#
Spark
Spark SQL原理及常用方法详解
SparkSQL
一、
SparkSQL
基础知识1、
SparkSQL
简介(1)简单介绍(2)Datasets&DataFrames(3)
SparkSQL
架构(4)
SparkSQL
的特点二、入门案例1、案例代码
怡情灬XiaoBai
·
2022-04-24 14:38
spark
大数据
大数据
Spark
SQL
sparkSql
读取hive表数据,使用正则替换指定字符,然后进行 行转列
实例:住高层的都看看//@M大王叫我来巡山:电动车楼道充电真的有很大安全隐患!!//@休闲璐:看了这篇我害怕的点是我对门就天天把电动车放在楼道正则替换得到想要的结果:住高层的都看看§电动车楼道充电真的有很大安全隐患!!§看了这篇我害怕的点是我对门就天天把电动车放在楼道/**overview_content-->准备替换的表字段**'//@.*?:'-->按照//@--:进行匹配**'§'-->将匹
卢子墨
·
2022-04-24 14:30
Spark
regexp_replace
sparkSql
数据离线处理--整理记录
sparkSql
数据离线处理前言:本文作为本人学习
sparkSql
离线数据抽取,离线数据处理的学习整理记录,文中参考博客均附上原文链接。
Clown_34
·
2022-04-24 14:50
hive
big
data
hadoop
spark
scala
Spark sql详细介绍
SparkSQL
是构建在SparkRDD之上一款ETL(ExtractTransformationLoad)工具(类似Hive-1.x-构建在MapReduce之上)。
Mayz梅子子子
·
2022-04-22 08:48
BigData
Hadoop
hadoop
spark
大数据
Spark SQL原理及常用方法详解(二)
SparkSQL
一、
SparkSQL
基础知识1、
SparkSQL
简介(1)简单介绍(2)Datasets&DataFrames(3)
SparkSQL
架构(4)
SparkSQL
的特点二、入门案例1、案例代码
徐小慧_Blog
·
2022-04-22 08:47
spark
spark
详解Spark SQL 底层实现原理(parser、analyzer、optimizer、physical plan)
SparkSQL
底层实现原理1.
SparkSQL
架构设计2.
SparkSQL
执行过程3.SQL举例4.Catalyst执行过程4.1sql解析阶段Parser4.2绑定逻辑计划Analyzer4.3逻辑优化阶段
jialun0116
·
2022-04-22 08:44
大数据
面试
大数据
spark
spark
sql
底层原理
Spark SQL 底层实现原理
1.
SparkSQL
架构设计直接使用SQL的方式实现大数据的开发,它同时支持DSL以及SQL的语法风格,目前在spark的整个架构设计当中,所有的spark模块,例如SQL,SparkML,sparkGrahpx
jxx4903049
·
2022-04-22 08:42
sparksql
spark
sql
大数据
SparkSQL
底层执行的原理详解(面试必备)
1.RDD和
SparkSQL
运行时的区别查看执行计划----------------------explainRDD的运行流程
SparkSQL
程序运行流程和RDD不同,
SparkSQL
的Dataset和
LBJ_小松鼠
·
2022-04-22 08:12
Spark
Spark SQL 工作流程源码解析(三)analysis 阶段(基于 Spark 3.3.0)
本专栏目录结构和参考文献请见大数据技术体系目录
SparkSQL
工作流程源码解析(一)总览(基于Spark3.3.0)
SparkSQL
工作流程源码解析(二)parsing阶段(基于Spark3.3.0)
SparkSQL
Shockang
·
2022-04-22 08:10
大数据技术体系
spark
sql
大数据
Spark SQL详解
spark系列Spark核心原理及运行架构SparkRDD详解Spark常用算子大全
SparkSQL
详解
SparkSQL
spark系列前言
SparkSQL
简介什么是
SparkSQL
?
BigData_Hubert
·
2022-04-22 08:07
大数据
sparkSQL
DataFrame
DataSet
SparkSession
Spark
on
Hive
Spark SQL底层执行流程详解
本文目录一、ApacheSpark二、
SparkSQL
发展历程三、
SparkSQL
底层执行原理四、Catalyst的两大优化完整版传送门:Spark知识体系保姆级总结,五万字好文!
五分钟学大数据
·
2022-04-22 08:03
spark
spark
大数据
Spark SQL底层执行流程详解
本文目录一、ApacheSpark二、
SparkSQL
发展历程三、
SparkSQL
底层执行原理四、Catalyst的两大优化一、ApacheSparkApacheSpark是用于大规模数据处理的统一分析引擎
五分钟学大数据
·
2022-04-21 14:00
Spark SQL和DataFrame指南[中英对照]
2019独角兽企业重金招聘Python工程师标准>>>翻译自http://spark.apache.org/docs/1.3.0/sql-programming-guide.html概述(Overview)
SparkSQL
isaSparkmoduleforstructureddataprocessing.ItprovidesaprogrammingabstractioncalledDataFram
Vincent8080
·
2022-04-20 07:47
基于语法树解析Spark SQL 获取访问的表/字段/UDF等信息
最近有需求,需要拆解
SparkSQL
中的表,字段等信息,然后配合Ranger实现一些权限校验。
lilyjoke
·
2022-04-14 20:56
JAVA
大数据
Spark
spark
antlr
深入了解
SparkSQL
的运用及方法
目录一:
SparkSQL
1.
SparkSQL
简介2.
SparkSQL
运行原理3.
SparkSQL
特点二、
SparkSQL
运用一:
SparkSQL
1.
SparkSQL
简介
SparkSQL
是Spark的一个模块
·
2022-03-30 13:30
Apache Impala架构解析及与Hive、
SparkSQL
的性能比较
一、Impala介绍Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大特点就是它的快速。Impala是用于处理存储在Hadoop集
·
2022-03-29 10:38
apache
24 分布式SQL执行引擎
相当于构建了一个以MetaStore服务为元数据,Spark为执行引擎的数据库服务,像操作数据库那样方便的操作
SparkSQL
进行分布式的SQL计算
THE ORDER
·
2022-03-27 13:33
spark
spark
big
data
java
21
SparkSQL
函数定义
1
SparkSQL
定义UDF函数2
SparkSQL
使用窗口函数3总结
SparkSQL
支持UDF和UDAF定义,但在Python中,暂时只能定义UDFUDF定义支持2种方式,1:使用SparkSession
THE ORDER
·
2022-03-27 13:33
spark
css3
css
html
spark
21 DataFrame入门
1DataFrame的组成2DataFrame的代码构建-基于RDD方式13DataFrame的入门操作4词频统计案例练习5电影评分数据分析案例6
SparkSQL
Shuffle分区数目7
SparkSQL
THE ORDER
·
2022-03-27 13:33
spark
hadoop
hdfs
big
data
Spark调优第二篇
Spark原理第一篇1观察执行流程Explain查看日志也可以webUI界面里面观察2资源调优资源上限的估算资源内存的估算资源内存比例调整的估算例如
sparkSQL
默认shuffle并行度是200,将设数据量为
我爱肉肉
·
2022-03-25 07:54
spark
big
data
大数据
《Spark快速大数据分析》——读书笔记(5)
SparkSQL
中的结构化数据源。数据库与键值存储。5.2文件格式5.2.1文本文
水木-刘
·
2022-03-25 07:23
读书笔记
Spark SQL 初探: 使用大数据分析2000万数据
目录[−]安装和配置SparkSpark初试使用
SparkSQL
分析数据去年网上曾放出个2000W的开房记录的数据库,不知真假。
sysmedia
·
2022-03-25 07:22
spark
spark
股票数据分析
股票数据分析前面我们介绍了Spark和
SparkSQL
,今天我们就使用
SparkSQL
来分析一下我们的数据,今天我们主要分析一下股票数据数据准备这里郑重申明,我们的全部数据来自tushare,tushare
不二人生
·
2022-03-25 07:39
#
查询引擎spark
数据分析
spark
big
data
数据仓库 —— Hive
要实现这个目标,就需要大数据分析引擎,常见的有:Hadoop体系的Hive和Pig
SparkSQL
FlinkTable&SQLPresto:支持SQL,基于内存,通常集成Presto和HiveImpala
小胡_鸭
·
2022-03-24 18:41
spark学习记录
登陆默认在“/root”目录linux目录结构Java8安装Zookeeper安装Hadoop安装Spark2.3HA集群分布式安装SparkRDD
sparksql
dockermysqlsparksessionlinux
mo明奇妙
·
2022-03-18 18:06
big
data
Spark SQL详解
SparkSQL
原理1.
SparkSQL
概述(1)概念:
SparkSQL
是Spark1.0的新加入成员,前身是Shark。
今夕何夕-l
·
2022-03-18 04:56
spark
spark
Spark SQL1.2测试
SparkSQL
1.2运行原理caseclass方式json文件方式背景:了解到HDP也能够支持
SparkSQL
,但官方文档是版本1.2,希望支持传统数据库、hadoop平台、文本格式的整合处理虚线表示还未实现
diaomu5377
·
2022-03-18 04:26
json
scala
数据库
Spark SQL-附有代码
一.
SparkSQL
提供的操作数据的方式SQLDataFrameAPIDatasetAPI一个用于处理结构化数据的Spark组件,强调的是“结构化数据”,而非“SQL”二.
SparkSQL
不仅仅是SQL
钟哥哥实在帅
·
2022-03-18 04:40
个人
spark
sql
big
data
揭秘字节跳动云原生Spark History 服务 UIService
本文是字节跳动数据平台数据引擎
SparkSQL
团队针对SparkHistoryServer(SHS)的优化实践分享。
·
2022-03-14 15:43
spark字节跳动
Databricks 企业版 Spark&Delta Lake 引擎助力 Lakehouse 高效访问
简介:本文介绍了Databricks企业版DeltaLake的性能优势,借助这些特性能够大幅提升
SparkSQL
的查询性能,加快Delta表的查询速度。
·
2022-03-10 11:54
spark大数据
使用SQL实现车流量的计算
卡口转换率将数据导入hive,通过
SparkSql
编写sql,实现不同业务的数据计算实现,主要讲述车辆卡口转换率,卡口转化率:主要计算不同卡口下车辆之间的流向,求出之间的转换率。
每日小新
·
2022-03-02 07:45
Java+大数据之旅
sql
big
data
hive
上一页
22
23
24
25
26
27
28
29
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他