E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
大规模导出线上HBsase数据出现的问题总结
我们提出的解决方案是将一年以上的数据作为冷数据从HBase中导出来进行压缩后存到HDFS中,如果业务方要分析这部分的数据可以再关联hive表用
sparkSQL
做数据挖掘等。
futureZG
·
2022-12-10 01:29
hbase
解决方案
hdfs
数据
存储
Spark的运行架构和基本原理
SparkSQL
:Spark处理结构化数据的库,就像HiveSQL,Mysql一样,企业中用来做报表统计。SparkStreaming:实时数据流处理组件,类
陆山右
·
2022-12-09 09:56
Spark
Spark的运行架构和基本原理
spark基本架构及原理
其他Spark的库都是构建在RDD和SparkCore之上的
SparkSQL
:提供通过ApacheHive的SQL变体Hive查询语言(HiveQL)与Spark进行交互的API。
一只哈士奇
·
2022-12-09 09:55
Spark
大数据
Flink SQL增量查询Hudi表
前言前面总结了
SparkSQL
增量查询Hudi表和Hive增量查询Hudi表。最近项目上也有FlinkSQL增量查询Hudi表的需求,正好学习总结一下。
董可伦
·
2022-12-08 10:34
Flink
Hudi
flink
大数据
数据湖
pyspark案例系列7-通过dataframe的pivot实现行转列
例如数据格式如下:需要形成一个如下的矩阵:二.解决方案我们知道关系型数据库里面有一个pivot可以比较方便的实现行转列,翻看了hive、
SparkSQL
的官网文档,没有找到pivot函数。
只是甲
·
2022-12-08 07:11
大数据和数据仓库
#
Spark
spark
hive
big
data
Spark核心之Spark Streaming
前面说到Spark的核心技术的时候,有和大家说过,有五大核心技术,不知道大家还记不记得;给大家回忆下,这五大核心技术:分布式计算引擎SparkCore、基于Hadoop的SQL解决方案
SparkSQL
、
天ヾ道℡酬勤
·
2022-12-07 11:42
spark
spark
SparkStreaming基础理论
Hadoop的MapReduce及
SparkSQL
等只能进行离线计算,无法满足实时性要求较高的业务需求,例如实时推荐、实时网站性能分析等,流式计算可以解决这些问题。
weixin_33815613
·
2022-12-07 11:41
大数据
数据库
网络
【备忘】《图解Spark 核心技术与案例实战》PDF
.1.1什么是Spark1.1.2Spark与MapReduce比较1.1.3Spark的演进路线图1.2Spark生态系统1.2.1SparkCore1.2.2SparkStreaming1.2.3
SparkSQL
1
qq_38472089
·
2022-12-06 02:46
Spark
MLlib
Spark
Streaming
Spark框架 及 pyspark库
spark-core(RDD)RDD的常用算子transformationvalue型transformationkey-value型transformationactionpersist关闭spark案例
SparkSQL
劫径
·
2022-12-05 11:49
大数据框架
spark
大数据
开源大数据工具整理
ApacheHBase之上的一个SQL中间层,完全使用Java编写Stinger原叫Tez,下一代Hive,Hortonworks主导开发,运行在YARN上的DAG计算框架PrestoFacebook开源
SparkSQL
Spark
北极象
·
2022-12-05 11:28
大数据
大数据
开源
Hudi社区 | Apache Hudi集成Spark SQL抢先体验
1.摘要社区小伙伴一直期待的Hudi整合
SparkSQL
的[HUDI-1659](https://github.com/apache/hudi/pull/2645)正在积极Review中并已经快接近尾声
大数据技术架构
·
2022-12-04 18:13
Spark
java
mysql
数据库
hive
大数据
Spark SQL增量查询Hudi表
最近可能会有
SparkSQL
增量查询Hudi表的需求,并且我发现目前用纯
SparkSQL
的形式还不能直接增量查询Hudi表,于是进行学习总结一下。
董可伦
·
2022-12-04 18:41
Hudi
Spark
spark
sql
大数据
SparkSQL
统计——连续3月或以上
前言:本章用到了开窗函数,不了解的可以去看看。SQL开窗函数(窗口函数)详解_流水随清风的博客-CSDN博客_sql开窗函数数据源下载:链接:https://pan.baidu.com/s/1WMz8B-xJZjOoMmlaLurjZg提取码:eetv数据源展示:案例实现要求:统计连续3月或以上都有购买记录的用户个数
月亮给我抄代码
·
2022-11-30 08:24
scala
spark
大数据
big
data
hive
SparkSQL
抽取Mysql全量数据到Hive动态分区表中
部分概念内容:hive学习(七)------创建动态分区_BigDate_小学生的博客-CSDN博客进阶篇:spark增量抽取MySQL中的数据存入hive动态分区表(2)_月亮给我抄代码的博客-CSDN博客前言:我这里把hive-site.xml文件放在了resource目录中,相关配置及依赖在后面。不要用中文值作为静态分区或动态分区字段!!!packagemy_projectimportorg
月亮给我抄代码
·
2022-11-30 08:54
hive
mysql
spark
scala
大数据
SparkSQL
统计——连续3天或以上
前言:本章用到了开窗函数,不了解的可以去看看。SQL开窗函数(窗口函数)详解_流水随清风的博客-CSDN博客_sql开窗函数数据源下载:链接:https://pan.baidu.com/s/1WMz8B-xJZjOoMmlaLurjZg提取码:eetv数据源展示:案例实现要求:统计每月连续3天或以上的用户个数思路讲解:<
月亮给我抄代码
·
2022-11-30 08:54
hive
spark
scala
大数据
big
data
1024程序员节
Spark学习(6)-Spark SQL
1快速入门
SparkSQL
是Spark的一个模块,用于处理海量结构化数据。
-------江湖-------
·
2022-11-29 17:32
大数据
spark
学习
大数据分析师题库(一)
A:SparkStreamingB:SparkCoreC:GraphxD:
SparkSQL
正确答案:ABCD答案解析:Spark的设计遵循“一个软件栈满足不同应用场
IMMOMMOI
·
2022-11-29 15:10
大数据
SPARK数据分析
为了给开发者提供足够的灵活性,对于DataFrame之上的数据处理,
SparkSQL
支持两类开发入口:一个是大家所熟知的结构化查询语言:SQL,另一类是DataFrame开发算子。就开发效率与执行效
bugmaker.
·
2022-11-29 11:21
spark
spark
数据分析
大数据
Spark快速入门
文章目录前言一、Spark概述1.1Spark是什么1.2Spark和Hadoop1.3Spark和MR二、Spark核心模块1.SparkCore2.
SparkSQL
3.SparkStreaming4
易逑实战数据
·
2022-11-29 11:41
大数据
spark
big
data
hadoop
如何入门spark
第三步,我们需要了解并熟悉Spark不同的计算子框架(
SparkSQL
、SparkMLlib和StructuredStreaming),来应对不同的数据应用场景,比如数据分析、机器学习和流计算。四
bugmaker.
·
2022-11-29 11:07
spark
spark
大数据
分布式
Spark基础学习笔记DataFrame与Dataset
文章目录一、数据帧-DataFrame(一)DataFrame概述(二)将RDD转成DataFrame(三)DataFrame与Dataset的关系二、简单使用
SparkSQL
(一)、准备数据文件(二)
guangzhizi_llj
·
2022-11-28 11:24
spark
big
data
学习
spark学习笔记:DataSet
它集中了RDD的优点(强类型和可以用强大lambda函数)以及使用了
SparkSQL
优化的执行引擎。
黄道婆
·
2022-11-28 11:24
bigdata
Spark学习笔记12:DataFrame与Dataset
、数据帧-DataFrame(一)DataFrame概述(二)将RDD转成DataFrame二、数据集-Dataset(一)Dataset概述(二)DataFrame与Dataset的关系三、简单使用
SparkSQL
balabalalibala
·
2022-11-28 11:22
Spark
spark
big
data
学习
大数据分析实训——使用Spark SQL分析美国新冠肺炎疫情
项目思路:使用
SparkSQL
读取文件数据集来生成DataFrame对象,再利用
SparkSQL
函数对DataFrame对象进行数据分析,并将结果存入MySQL数据库,再以Web网页的形式对分析结果进行可视化
zhangz1z
·
2022-11-26 19:38
大数据
spark
大数据
数据分析
Hudi Spark SQL Call Procedures学习总结(一)(查询统计表文件信息)
前言学习总结Hudi
SparkSQL
CallProcedures,CallProcedures在官网被称作存储过程(StoredProcedures),它是在Hudi0.11.0版本由腾讯的ForwardXu
董可伦
·
2022-11-25 12:10
Hudi
Spark
spark
hudi
数据湖
spark-sql
sparkSql
使用sql来进行操作,简化rdd的开发DataFrame是一种以rdd为基础的分布式数据集,也就类似于二维表格,只关心数据的含义,提供详细的结构信息DataSet是分布式数据集合,,是DataFrame
爱吃鸡的小鸡
·
2022-11-22 20:13
spark
scala
开发语言
spark
学习
大数据
idea连接mysql报错
我在用idea用
sparkSql
进行连接mysql的时候发现报错javax.net.ssl.SSLException:closinginboundbeforereceivingpeer'sclose_notify
爱吃鸡的小鸡
·
2022-11-22 20:13
intellij-idea
java
ide
spark-sql字段级血缘关系实现
SparkSQL
相对于Hive来说通常情况下效率会比较高,对于运行时间、资源的使用上面等都会有较大的收益。所以考虑将采用MapReduce引擎执行的sql进行迭代,以spark引擎执行。
Chocolate?
·
2022-11-22 16:28
大数据
spark
熵权法确定权重
总结:
SparkSQL
实现m:项目的个数,比如:该月该用户观看了多少种节目分步计算一、基本原理在信息论中,熵是对不确定性的一种度量。
灵佑666
·
2022-11-22 09:01
arithmetic
SparkSQL
简介、创建spark SQL开发环境、创建DF三种方式、printScheme()
文章目录
SparkSQL
简介IDEA中创建
SparkSQL
开发环境三种DataFrame创建方式createDataFrame()SparkSession的read隐式类型转换获取DF的Schema
SparkSQL
Geek白先生
·
2022-11-20 17:26
Spark
SparkSQL
创建DF
Spark SQL之空值Null,NaN判断和处理
SparkSQL
空值Null,NaN判断和处理Null和NaN空值带来的问题sparkhive
SparkSQL
空值Null,NaN判断和处理1.filter、fill、drop2.合并coalease:
南风知我意丿
·
2022-11-20 17:09
#
Spark-SQL
spark
sql
大数据
SparkDF操作与SQL交互和相关函数整理
SparkDF与
SparkSQL
交互操作函数笔记一、生成DF方式1.toDF2.createDataFrame3.list转DF4.schema动态创建DataFrame5.通过读取文件创建DF二、DateFrame
Elvis_hui
·
2022-11-20 17:38
PySpark
sql
spark
python
数据挖掘
Spark 操作 Hive
文章目录内置Hive外部的Hive代码操作Hive运行
SparkSQL
CLI运行SparkbeelineApacheHive是Hadoop上的SQL引擎,
SparkSQL
编译时可以包含Hive支持,也可以不包含
Alienware^
·
2022-11-20 10:45
#
Spark
hive
spark
big
data
Spark on Hive & Hive on Spark,傻傻分不清楚
(1)就是通过
sparksql
,加载hive的配置文件,获取到hive的元数据信息(2)
sparksql
获取到hive的元数据信息之后就可以拿到hive的所有表的数据(3)接下来就可以通过
sparksql
王知无(import_bigdata)
·
2022-11-20 10:42
大数据成神之路
hive
spark
big
data
spark on hive原理与环境搭建 spark研习第三季
SparkSQL
前身是Shark,Shark强烈依赖于Hive。
简约AI
·
2022-11-20 10:12
spark
spark
hive
spark on hive 和 hive on spark
就是通过saprksql,加载hive配置文件,获取hive的元数据信息
sparksql
获取到hive的元数据信息之后就可以拿到hive的所有表的数据接下来就可以通过
sparksql
来操作hive表中的数据
qq_42915325
·
2022-11-20 10:11
Spark分组取TopN
这篇文章主要介绍在Spark中如何分组取TopN元素的两种方法:第一种方法基于
SparkSQL
的窗口函数实现,第二种方法基于原生的RDD接口实现。
sinat_36710456
·
2022-11-20 01:54
大数据
Spark
TopN
JavaSpark | RDD实战:分组top n
JavaSpark|RDD实战:WordCountJavaSpark|RDD实战:统计网站pv和uvJavaSpark|RDD实战:二次排序JavaSpark|RDD实战:分组topnJavaSpark|
SparkSQL
幼稚的人呐
·
2022-11-20 01:45
Spark
JavaSpark
分组top
n
大数据学习
大数据学习概述云计算高性能计算大数据存储云存储大数据分析聚类分析、分类分析大数据采集大数据预处理大数据数据库设计
SparkSQL
数据仓库HiveHadoop基础大数据批处理大数据实时处理概述全球移动数据流量年增长率维持在
Loren_Wang
·
2022-11-15 23:26
big
data
学习
大数据
大数据编程实验三:
SparkSQL
编程
大数据编程实验三:
SparkSQL
编程文章目录大数据编程实验三:
SparkSQL
编程一、前言二、实验目的与要求三、实验内容四、实验步骤1、
SparkSQL
基本操作2、编程实现将RDD转换为DataFrame3
-北天-
·
2022-11-15 11:40
大数据
大数据
spark
分布式
mysql
Spark 3.0 - 1.Spark 新特性简介与 WordCount Demo 实践
目录一.引言二.Spark3.0特性1.Improvingthe
SparkSQL
engine[改进的SQL引擎]1.1DynamicPartitionPruning[动态分区修剪]1.2ANSISQLcompliant
BIT_666
·
2022-11-15 09:59
Spark3.0
Scala
Spark3.0
大数据
分布式
WordCount
Spark 离线开发框架设计与实现
SparkSQL
使用标准的数据连接,与Hive兼容,易与其它语言API整合,表达清晰、简单易上手、学习成本低,是开发者开发简单数据处理的首选语言,但对
m0_72864708
·
2022-11-11 00:43
spark
大数据
hive
Spark的一些问题汇总 及 Yarn与Spark架构的对比
核心SparkCore、SQL计算(
SparkSQL
)、流计算(SparkStreaming)、图计算(Graphx)、机器学习(MLlib)3、Spark有哪些特点?
木易巷
·
2022-11-06 22:49
Spark
spark
大数据
分布式
java 版 spring boot mybatis 前后端分离架构之Spark 离线开发框架设计与实现
SparkSQL
使用标准的数据连接,与Hive兼容,易与其它语言API整合,表达清晰、简单易上手、学习成本低,是开发者开发简单数据处理的首选语言,但对
微服务商城技术分享
·
2022-11-06 17:17
spark
big
data
数据仓库
Spark 离线开发框架设计与实现
SparkSQL
使用标准的数据连接,与Hive兼容,易与其它语言API整合,表达清晰、简单易上手、学习成本低,是开发者开发简单数据处理的首选语言,但对
m0_72864708
·
2022-11-06 08:04
spark
数据仓库
hive
Spark 离线开发框架设计与实现
SparkSQL
使用标准的数据连接,与Hive兼容,易与其它语言API整合,表达清晰、简单易上手、学习成本低,是开发者开发简单数据处理的首选语言,但对
m0_72864708
·
2022-11-06 08:34
spring
cloud
微服务
架构
java
ml
sparksql
数据比较_使用
SparkSql
进行表的分析与统计
背景我们的数据挖掘平台对数据统计有比较迫切的需求,而Spark本身对数据统计已经做了一些工作,希望梳理一下Spark已经支持的数据统计功能,后期再进行扩展。准备数据在参考文献6中下载鸢尾花数据,此处格式为iris.data格式,先将data后缀改为csv后缀(不影响使用,只是为了保证后续操作不需要修改)。数据格式如下:SepalLengthSepalWidthPetalLengthPetalWid
枫冷慕诗
·
2022-11-01 10:45
ml
sparksql
数据比较
SparkSQL
与Hive语法差异
Spark支持四、Parquet表格式相关五、备注一、相同函数差异1.Spark运行时用到的hash函数,与Hive的哈希算法不同,如果使用hash(),结果和Hive的hash()会有差异解决方案:
SparkSQL
风中的大数据
·
2022-11-01 10:45
Spark
hive
hive
spark
大数据
sparksql
与hql语法差异
sparksql
2.0兼容大多数hive1.1语法,不支持的基本很少用到。
sparksql
2.0不兼容的hive1.1语法主要有一下几个方面:分桶建表语法差异
weixin_44352020
·
2022-11-01 10:45
spark
SparkSQL
基础
SparkSQL
概述
SparkSQL
是Spark的结构化数据处理模块。
Ta-ttoo
·
2022-11-01 10:14
spark
上一页
19
20
21
22
23
24
25
26
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他