E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
大数据最佳实践-spark structstreaming
目录概述APIwatermarking其他概述核心设计编程模型ContinuousProcessingMode一致性语义案例整合kafka写入到parquet文件概述结构化流是基于
SparkSQL
引擎构建的可伸缩且容错的流处理引擎
猿与禅
·
2023-04-03 06:02
大数据
spark
structstreaming
调优
最佳实践
Spark-SQL连接Hive
Spark-SQL连接HiveApacheHive是Hadoop上的SQL引擎,
SparkSQL
编译时可以包含Hive支持,也可以不包含。
Aricya
·
2023-04-03 05:03
hive
spark
sql
大数据
sparksql
执行报错grows beyond 64 KB
报错内容Codeofmethod“apply_2(Lorg/apache/spark/sql/catalyst/expressions/GeneratedClass(Lorg/apache/spark/sql/catalyst/expressions/GeneratedClass(Lorg/apache/spark/sql/catalyst/expressions/GeneratedClassSp
荣晓
·
2023-04-03 03:44
spark
spark
大数据
用户画像的技术选型与架构实现
还有一种方式,可以通过将数据写入本地文件,然后通过
sparksql
的load或者hive的export等方
weixin_34248258
·
2023-04-03 03:35
数据库
数据结构与算法
scala
读写parquet格式文件的几种方式
摘要本文将介绍常用parquet文件读写的几种方式1.用spark的hadoopFileapi读取hive中的parquet格式文件2.用
sparkSql
读写hive中的parquet格式3.用新旧MapReduce
DemonHunter211
·
2023-04-02 14:27
Hadoop
大数据--spark生态4--
sparkSQL
目录一:
sparkSQL
介绍二:DataFrame三:dataSet四:rdd,dataframe,dataset之间的转换五:rdd,dataframe,dataset异同点5.1相同点5.2区别六:
斑马!
·
2023-04-02 10:21
大数据
#
spark生态
flink生态
spark
big
data
hadoop
漫谈大数据 - Spark SQL详解,参数调优
目录ApacheSpark什么是
SparkSQL
?
昊昊该干饭了
·
2023-04-02 09:58
大数据
mysql
spark
sql
Spark之
SparkSQL
什么是
SparkSQL
SparkSQL
是Spark用于结构化数据处理的模块
SparkSQL
的原理
SparkSQL
提供了两个编程抽象,DataFrame和DataSetDataFrame1)DataFrame
勤奋的ls丶
·
2023-04-02 04:45
spark
spark
蓝桥杯
大数据
Hudi系列7:使用
SparkSQL
操作Hudi
文章目录一.
SparkSQL
连接Hudi1.1Hive配置1.2
SparkSQL
连接Hudi二.创建表2.1常规的建表2.2CTAS三.插入数据四.查询数据五.更新数据5.1普通5.2MergeInto
只是甲
·
2023-04-02 02:28
大数据和数据仓库
#
数据湖
hive
大数据
spark
【hadoop期末复习】第十章 Spark 超详细讲解
学习通-习题1.
SparkSQL
目前暂时不支持下列哪种语言A.JavaB.ScalaC.PythonD.Lisp我的答案:D解析:Scala是Spark的主要编程语言,但Spark还支持Java、Python
新世纪debug战士
·
2023-04-02 02:44
hadoop期末复习
分布式
spark
大数据
hadoop
大数据hadoop与spark研究——1 spark环境搭建
SparkCore任务调度,内存管理,错误恢复,与存储系统交互,对RDD的api定义RDD表示分布在多个计算节点上可以并行操作的元素集合
SparkSQL
spark用来操作结构
南山二毛
·
2023-04-02 00:52
大数据
数据湖架构Hudi(三)Hudi核心概念
三、ApacheHudi核心概念3.1基本概念Hudi提供了Hudi表的概念,这些表支持CRUD操作,可以利用现有的大数据集群比如HDFS做数据文件存储,然后使用
SparkSQL
或Hive等分析引擎进行数据分析查询
undo_try
·
2023-04-01 23:09
#
spark_sql
大数据
hadoop
Spark开发--Spark SQL--内置函数(十四)
一、窗口函数 窗口函数是
sparksql
模块从1.4之后开始支持的,主要用于解决对一组数据进行操作,同时为每条数据返回单个结果,比如计算指定访问数据的均值、计算累加和或访问当前行之前行数据等,这些场景使用普通函数实现是比较困难的
无剑_君
·
2023-04-01 12:06
spark 使用记录case
case1:
SparkSQL
缓存了Parquet元数据以达到良好的性能。当HivemetastoreParquet表转换为enabled时,表修改后缓存的元数据并不能刷新。
点点渔火
·
2023-04-01 06:51
185、Spark 2.0之SparkSession、Dataframe、Dataset开发入门
SparkSQL
介绍
SparkSQL
是Spark的一个模块,主要用于处理结构化的数据。
ZFH__ZJ
·
2023-03-31 16:08
SparkSQL
中DataFrame常用API
[html]viewplaincopypackagecom.fosun.sparkdemo;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.spark.sql.DataFrame;importorg.apache.spark.sql.SQLConte
豆豆1223
·
2023-03-31 12:14
SparkSQL
pyspark系列6-Spark SQL编程实战
一.SparkDataFrame概述从上一篇博客,我们可以知道因为Python是弱类型,所以Py
SparkSQL
的数据抽象就只有DataFrame,这里我们再来复习一下DataFrame。
只是甲
·
2023-03-31 12:43
大数据和数据仓库
#
Spark
pyspark
Spark
SQL
DataFrame
大数据系列之Spark SQL、DataFrame和RDD数据统计与可视化
Spark大数据分析中涉及到RDD、DataFrame和
SparkSQL
的操作,本文简要介绍三种方式在数据统计中的算子使用。
solihawk
·
2023-03-31 12:09
大数据系列
#
spark
python
大数据
spark
python
SPARKSQL
3.0-DataFrameAPI与spark.sql()区别源码分析
一、前言:阅读本节需要先掌握spark-sql内部执行的基本知识:SessionStateUnresolved阶段Analyzer阶段中queryExecution的介绍二、区别spark.sql的执行顺序为:sql字符串->antlr4解析成AST语法树->unreolved解析成logicalPlan->Analyzer解析->Optimizer优化->后续物理执行计划DataFrame执行顺
高世之智
·
2023-03-31 11:54
spark
sql
大数据
sparksql
DataFrame
2021.5.20
sparksql
的Dataframe的api(更新中)
实际使用dataFrame的api的时候的时候才发现忘记的差不多了,常用的api做了一个整理,但是会涉及到公司的代码没有办法拿出来。下面会写一些测试案例:记录一下朋友的环境参数及版本号,以备以后查找使用,上次帮朋友下载依赖,自己的环境配置找不到了emmm:UTF-81.81.83.0.0-cdh6.3.23.0.0-cdh6.3.23.0.0-cdh6.3.22.4.0-cdh6.3.2没事我还有
超可爱慕之
·
2023-03-31 11:15
大数据
【Spark】Day03-Spark SQL:DataFrame、DataSet、sql编程与转换、项目实战(区域热门商品)...
一、概述1、介绍将
SparkSQL
转换成RDD,然后提交到集群执行【对比hive】提供2个编程抽象:DataFrame&DataSet可以使用SQL和DatasetAPI与
SparkSQL
交互2、特点易整合
哥们要飞
·
2023-03-31 11:26
spark
sql
大数据
分布式
数据库
Spark SQL实战(04)-API编程之DataFrame
1SparkSessionSparkCore:SparkContext
SparkSQL
:难道就没有SparkContext?
JavaEdge.
·
2023-03-31 11:43
大数据
spark
sql
大数据
「Spark 从精通到重新入门(一)」Spark 中不可不知的动态优化
而在2020年6月份发布的Spark3.0版本也是Spark有史以来最大的Release,其中将近一半的issue都属于
SparkSQL
。
尔达 Erda
·
2023-03-31 09:54
elasticsearch
单元测试
测试工具
云原生
安装Spark
spark-env.shworks配置集群用得到配完source一下,使用spark-shell即可进入简单实现wordcount读取本地文件读取hdfs文件Spark技术栈SparkCore核心组件,分布式计算引擎
SparkSql
Triumph-CP
·
2023-03-31 07:01
Spark
spark
scala
大数据
SparkSQL
之自定义UDF
当
SparkSQL
里内置的函数无法满足我们业务需求时,我们可以通过自定义UDF来实现。
阿坤的博客
·
2023-03-30 15:26
用户画像的基本架构
整个用户画像技术架构图,1、数据源层MySQLl数据库表、日志文件2、数据存储层采集工具:Sqoop、Flume、Canal存储:HDFS、HBase、Hive、MySQL3、数据分析层主要使用
SparkSQL
万里长江横渡
·
2023-03-30 09:37
用户画像
大数据
Spark调优工具--Sparklens详解
Spark是个近些年来非常受欢迎的基于内存并行计算框架架,它有丰富的API支持,还支持
SparkSQL
,MLlib,GraphX和SparkStreaming。
pyiran
·
2023-03-30 01:42
Spark
大数据
spark
hdfs
【Spark分布式内存计算框架——Structured Streaming】1. Structured Streaming 概述
前言ApacheSpark在2016年的时候启动了StructuredStreaming项目,一个基于
SparkSQL
的全新流计算引擎StructuredStreaming,让用户像编写批处理程序一样简单地编写高性能的流处理程序
csdnGuoYuying
·
2023-03-30 00:18
spark
分布式
大数据
kafka
数据库
Pipeline详解及Spark MLlib使用示例(Scala/Java/Python)【转】
1.数据框:机器学习接口使用来自
SparkSQL
的数据框形式数据作为数据集,它可以处理多种数据类型。比如,一个数据框可以有不同的列存储文本、特征向量、标签值
逆视角
·
2023-03-29 22:52
Spark生态系统和运行架构
1.Spark生态系统Spark生态圈Spark设计遵循”一个软件栈满足不同应用场景“的理念,逐渐形成了一整套完整的生态系统,既能够提供内存计算框架,也可以支持SQL即时查询(
SparkSQL
)、流计算
Aurora1217
·
2023-03-29 18:21
spark
spark
大数据
Spark及其生态简介
Spark及其生态简介一、Spark简介二、SparkCore简介三、
SparkSQL
简介四、SparkStreaming五、SparkMLlib六、GraphX七、集群管理器八、Spark的用户和用途一
若兰幽竹
·
2023-03-29 18:40
Spark
Spark
Spark的概念、特点、应用场景
它是基于内存计算的大数据并行计算框架Spark生态系统主要包含SparkCore.
SparkSQL
.SparkStreamingMIlibGraphX以及独立调度器:介绍:SparkCore:Spark
发量不足
·
2023-03-29 17:52
Scala
IDEA
hadoop
大数据
spark
scala
idea
Spark SQL的jdbc数据源如何确定数据分区
摘要本篇文章主要分析
sparksql
在加载jdbc数据时,比如通过jdbc方式加载MySQL数据时,分区数如何确定,以及每个分区加载的数据范围。
dinghua_xuexi
·
2023-03-29 15:31
大数据
spark
spark
jdbc
数据库
SparkSQL
读写jdbc一些鲜为人知的事儿
另外,本文会涉及一些Spark的源码分析,我使用的版本是org.apache.spark:spark-sql_2.12:3.2.1首先简单介绍一下
SparkSQL
读写JDBC的基本操作和参数配置。
Shawn_Shawn
·
2023-03-27 20:19
SparkSQL
应用的一个排错和重构
故事背景数据处理逻辑:将一个json的数组从map结构里面扣出来然后将json数组里面的每一个元素和map结构里面的其他元素重新组成一个新的map,存入一个新表实现方式:采用
SparkSQL
实现(Spark3.1.2
天之見證
·
2023-03-27 13:23
【spark】第三章——
SparkSQL
文章目录1.
SparkSQL
概述1.1
SparkSQL
是什么1.2Hiveand
SparkSQL
1.3
SparkSQL
特点1.3.1易整合1.3.2统一的数据访问1.3.3兼容Hive1.3.4标准数据连接
mossloo
·
2023-03-27 09:20
大数据
spark
hive
数据库
Hive-数据分析系统
背景为了降低大数据领域使用mepreduce的使用门槛,提高分析效率,大数据引用了对sql的支持mepreduce对应hivespark对应
sparksql
sqlonhadoop目的:基于计算引擎基于mpp
一个喜欢烧砖的人
·
2023-03-26 03:37
Spark从入门到精通59:SparkSession、Dataframe、Dataset开发入门
1.
SparkSQL
介绍
SparkSQL
是Spark的一个模块,主要用于处理结构化的数据。
勇于自信
·
2023-03-26 00:34
大数据仓库之Hive@2019-06-05
https://blog.csdn.net/s646575997/article/details/51471000对SDE的解释http://www.it610.com/article/4630706.htm
sparkSQL
https
dataHunter
·
2023-03-24 00:26
大数据之Spark:
SparkSQL
开窗函数实战
目录1.概述2.准备工作3.聚合开窗函数示例1示例24.排序开窗函数4.1ROW_NUMBER顺序排序4.2RANK跳跃排序1.概述介绍相信用过MySQL的朋友都知道,MySQL中也有开窗函数的存在。开窗函数的引入是为了既显示聚集前的数据,又显示聚集后的数据。即在每一行的最后一列添加聚合函数的结果。开窗用于为行定义一个窗口(这里的窗口是指运算将要操作的行的集合),它对一组值进行操作,不需要使用GR
浊酒南街
·
2023-03-23 22:19
大数据系列三
spark
big
data
mysql
Spark16:【案例】实战:TopN主播统计:
SparkSQL
进行实现
的时候我们讲过一个案例,TopN主播统计,计算每个大区当天金币收入TopN的主播,之前我们使用spark中的transformation算子去计算,实现起来还是比较麻烦的,代码量相对来说比较多,下面我们就使用咱们刚学习的
Sparksql
做一个有趣的人Zz
·
2023-03-23 22:16
spark
big
data
spark
hive
SparkSQL
项目实战
SparkSQL
项目实战1.1数据准备我们这次Spark-sql操作中所有的数据均来自Hive,首先在Hive中创建表,,并导入数据。
翁老师的教学团队
·
2023-03-23 22:39
sparksql
Spark入门之六:
SparkSQL
实战
介绍
SparkSQL
引入了一种新的RDD——SchemaRDD,SchemaRDD由行对象(Row)以及描述行对象中每列数据类型的Schema组成;SchemaRDD很象传统数据库中的表。
铁猴
·
2023-03-23 22:05
Spark
Spark入门简单学
SparkSQL
hiveContext
sqlContext
SparkSQL
项目实战:TopN
文章目录数据准备需求描述数据准备这次Spark-SQL操作所有的数据均来自Hive,所以首先需要在Hive中创建表,并导入数据。一共有3张表:1张用户行为表,1张产品表,1张城市表--用户行为表CREATETABLE`user_visit_action`(`date`string,`user_id`bigint,`session_id`string,`page_id`bigint,`action_
塞上江南o
·
2023-03-23 21:59
Spark
spark
199.Spark(六):
SparkSQL
基本概念,DataFrame,DataSet,用户自定义函数,IDEA 开发
SparkSQL
,数据的加载和保存
目录一、
SparkSQL
基本概念1.什么是
SparkSQL
2.
SparkSQL
特点3.DataFrame4.DataSet二、DataFrame1.SQL语法
鹏哥哥啊Aaaa
·
2023-03-23 21:58
从头开始学编程
spark
hadoop
大数据
第57课:
SparkSQL
案例实战学习笔记
第57课:
SparkSQL
案例实战学习笔记本期内容:1.
SparkSQL
基础案例实战2.
SparkSQL
商业类型的案例进入Spark官网的sql-programming-guide:http://spark.apache.org
DemonHunter211
·
2023-03-23 21:02
Hadoop
Spark SQL实战:
SparkSQL
exmple
1.需求:使用
SparkSQL
,读取文件并查询数据表2.代码:(1)pom.xmlorg.apache.sparkspark-core_2.112.1.0org.apache.sparkspark-sql
Movle
·
2023-03-23 21:51
Spark实战
200.Spark(七):
SparkSQL
项目实战
一、启动环境需要启动mysql,hadoop,hive,spark。并且能让spark连接上hive(上一章有讲)#启动mysql,并登录,密码123456sudosystemctlstartmysqldmysql-uroot-p#启动hivecd/opt/module/myhadoop.shstart#查看启动情况jpsall#启动hivecd/opt/module/hive/bin/hives
鹏哥哥啊Aaaa
·
2023-03-23 21:05
从头开始学编程
spark
hadoop
大数据
spark last first函数的坑
某天一个需求需要用上
sparksql
的内置function,first跟last。心想只要把数据按某个字段提前排序,再分组取出first跟last值就没问题。
Gilegamesh
·
2023-03-23 07:07
spark学习笔记2-Spark SQL
本文是对
SparkSQL
基础知识的一个学习总结,包含如下几部分的内容:概述SparkSession类DataFrame类Sql语句操作DataSet类数据源小结预备知识:1、
SparkSQL
是在SparkCore
我是老薛
·
2023-03-23 01:11
上一页
15
16
17
18
19
20
21
22
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他