E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark-sql
SparkSQL项目实战
1准备数据我们这次
Spark-sql
操作所有的数据均来自Hive,首先在Hive中创建表,并导入数据。一共有3张表:1张用户行为表,1张城市表,1张产品表。
shangjg3
·
2023-11-16 06:47
Spark
spark
大数据
sql
spark创建DataFrame的N种方式
注:本篇介绍基于scala(pyspark选择性参考)一、maven配置基础依赖scala-library(scala基础环境)
spark-sql
(sparksql执行环境)mysql(要访问mysql
阿民啊
·
2023-11-15 09:24
SparkSql
spark
大数据
spark进行数据清洗时,如何读取xlsx表格类型文件
首先可以确定的是spark有专门对应excel表格读取的工具,在用
spark-sql
对xlsx类型文件进行读取的时候只需要再pom.xml文件里添加依赖就可以了添加依赖如下com.crealyticsspark-excel
枯槁橘子皮
·
2023-11-14 18:49
大数据
spark
excel
apache
大数据
hive和
spark-sql
中 日期和时间相关函数 测试对比
测试版本:hive2.3.4spark3.1.1hadoop2.7.71、增加月份add_months(timestampdate,intmonths)add_months(timestampdate,bigintmonths)Returntype:timestampusage:add_months(now(),1)2、增加日期adddate(timestampstartdate,intdays)
Data_IT_Farmer
·
2023-11-12 21:26
hive
hive
数据仓库
日期函数
时间函数
Spark-SQL
相关
相关链接DESCRIBETABLEhttps://spark.apache.org/docs/3.3.2/sql-ref-syntax-aux-describe-table.htmlSQLconceptSQL(StructureQueryLanguage)结构化查询语言DQL(dataquerylanguage)数据查询语言select操作。DQL即数据查询语言,实现数据的简单查询,主要操作命令有
zhixingheyi_tian
·
2023-10-27 08:01
Spark
Sql
sql
数据库
database
1024程序员节
Spark之DataFrame操作大全
一、DataFrame对象的生成
Spark-SQL
可以以其他RDD对象、parquet文件、json文件、Hive表,以及通过JDBC连
果粒多
·
2023-10-24 07:23
#
Spark
SparkSql读取Snappy Parquet压缩文件报错:java.lang.UnsatisfiedLinkError: org.xerial.snappy.SnappyNative.unc...
版本信息
Spark-sql
:2.2.0.cloudera2Spark-core:2.2.0.cloudera2JDK:1.8Scala:2.11.11问题描述在通过SparkSqlAPI读取SnappyParquet
Producer晨
·
2023-10-23 13:10
SparkSQL字段血缘关系的实现方式
说明:sparksql的字段血缘关系具体实现代码和使用方法见GitHub:RHobart/spark-lineage-parent:跟踪
Spark-sql
中的字段血缘关系(github.com)
一个懒散的人
·
2023-10-21 06:25
2020年美国新冠肺炎疫情数据分析案例总结
本案例出自于厦门大学数据库实验室,原采用的方法是PySpark,在此基础之上,我们通过
spark-sql
、zeppelin及可视化的方式加以改进。
胖波波玻璃球
·
2023-10-20 20:03
Structured API基本使用
示例如下:val spark = SparkSession.builder().appName("
Spark-SQL
").
shangjg3
·
2023-10-19 12:14
大数据计算引擎
Spark
大数据
spark
scala
Spark-SQL
详解
目录前言什么是SparkSQLDataFrameDataFrame基本操作SparkSession创建DataFrame1)通过Spark的数据源创建DSL语法风格(了解)2)RDD转化为DataFrame通过手动确定转换通过反射转化(用到样例类)3)通过hive创建RDD其它操作DataFrame转化为RDDDataSetDataSet基本操作创建RDD转换为DataSetDataSet转换为R
风吹我亦散
·
2023-10-19 08:56
spark
Spark-SQL
小结
目录一、RDD、DataFrame、DataSet的概念、区别联系、相互转换操作1.RDD概念2.DataFrame概念3.DataSet概念4.RDD、DataFrame、DataSet的区别联系5.RDD、DataFrame、DataSet的相互转换操作1RDD->DataFrame、DataSet2DataFrame->RDD,DataSet3DataSet->RDD,DataFrame二、
-我不是码农
·
2023-10-19 08:55
spark
sql
hive
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。使用方法csvspark.sql("select*fromcsv.
大猪大猪
·
2023-10-16 07:26
Spark-SQL
教程
目录创建SparkSession通过SparkSession创建SparkContextSparkContext读写文件的操作SparkSession文件读写sparkcatalog操作读取数据并生成DataFrame实例手动创建DataFrame使用sparkSession简化生成DataFrame生成dataFrame--createDataFrame(rdd,StructType(Struc
星瀚光晨
·
2023-10-16 06:03
spark系列
spark
大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-下
Flink环境准备sql-clent使用启动插入数据流式读取Bucket索引HudiCatalog集成Spark开发Spark编程读写示例通过IDE如Idea编程实质上和前面的spark-shell和
spark-sql
IT小神
·
2023-10-12 15:56
大数据
数据仓库
大数据
scala
spark
flink
安装spark并配置高可用
并开启了
spark-sql
的配置,可以通过jdbc链接spark。
欧阳小伙
·
2023-10-10 04:14
大数据
spark
大数据
分布式
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。使用方法csvspark.sql("select*fromcsv.
大猪大猪
·
2023-10-10 00:31
大数据——Spark Streaming
之前我们接触的spark-core和
spark-sql
都是离线批处理任务,每天定时处理数据,对于数据的实时性要求不高,一般都是T+1的。
AIGC人工智残
·
2023-10-09 21:02
大数据
大数据
spark
分布式
Spark 之 DataType
TimestampTypespark-sql>createtableifnotexiststest_emr_date(>idint,>datetime1timestamp>);
spark-sql
>>insertintotest_emr_datevalues
zhixingheyi_tian
·
2023-10-09 15:06
spark
spark
javascript
服务器
【大数据面试题】Spark-Core&;
Spark-SQL
题解|#牛群排队#importjava.util.*;publicclassSolution{/***代码中的类名、方法名、参数名已经指定,请勿修改,题解|#计算一个数的阶乘##includeusingnamespacestd;intmain(){intn;cin&题解|#牛群喂食#importjava.util.*;publicclassSolution{/***代码中的类名、方法名、参数名已经
2301_78234743
·
2023-10-07 00:39
java
spark-sql
调优技巧
sparkSQL概述sparkSQL的前世今生==Shark是专门针对于spark的构建大规模数据仓库系统的一个框架==Shark与Hive兼容、同时也依赖于Spark版本Hivesql底层把sql解析成了mapreduce程序,Shark是把sql语句解析成了Spark任务随着性能优化的上限,以及集成SQL的一些复杂的分析功能,发现Hive的MapReduce思想限制了Shark的发展。最后Da
柱子z
·
2023-10-03 03:21
spark-sql
大数据
hadoop
spark
Spark初体验
Spark包含了几个比较重要的模块:
Spark-SQL
、Str
BIGrey
·
2023-09-29 14:09
spark3
spark-sql
explain 命令的执行过程
1.SparkSQLDriver对于每个SQL语句,除了CommandFactory定义的,如dfs之外,都创建一个SparkSQLDriver对象,然后调用他的init方法和run方法。overridedefrun(command:String):CommandProcessorResponse={try{valsubstitutorCommand=SQLConf.withExistingCon
houzhizhen
·
2023-09-20 05:45
spark
spark
sql
spark-sql
sql on yarn --deploy-mode cluster 改造
前言众所周知,
spark-sql
不能提交到远端并且使用cluster进行部署:huangyichun@bigdata130023:~#spark-sql--masteryarn--deploy-modeclusterExceptioninthread"main"org.apache.spark.SparkException
青冬
·
2023-09-19 12:09
hadoop
spark
sql
大数据
HDP服务器上
spark-sql
联通hive元数据库
问题描述:金山云大数据平台(基于HDP)服务器上跑批数据加工脚本时,发现当中通过
spark-sql
执行的脚本没有执行,提示没有找到数据库;新打session窗口测试,通过
spark-sql
连接yarn后
NightFall丶
·
2023-09-17 23:44
#
Spark
#
hive
hive
数据库
服务器
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。使用方法csvspark.sql("select*fromcsv.
大猪大猪
·
2023-09-17 19:17
Spark集成hudi创建表报错
环境描述:hudi版本:0.13.1spark版本:3.3.2Hive版本:3.1.3Hadoop版本:3.3.4问题1:描述:按照官方文档运行
spark-sql
创建spark的hudi表报错建表语句:
Toroidals
·
2023-09-14 12:32
大数据问题处理
spark-sql
hudi
创建表
hoodie
path
org.apache.spark.sql.functions汇总
除UDF函数,均可在
spark-sql
中直接使用。经过importorg.apache.spark.sql.functions._,也可以用于Dataframe,Dataset。
kamisamak
·
2023-09-03 01:41
Spark SQL 函数全集
除UDF函数,均可在
spark-sql
中直接使用。经过importorg.apache.
一步难登天mzk
·
2023-09-03 01:41
SparkSQL
大数据
Spark
学习小白
Spark SQL函数总结
.排序函数8.字符串函数9.UDF函数10.窗口函数org.apache.spark.sql.functions是一个Object,提供了约两百多个函数大部分函数与Hive的差不多除UDF函数,均可在
spark-sql
明月清风,良宵美酒
·
2023-09-03 01:41
大数据技术栈
大数据
big
data
spark
sql
Spark SQL 函数
除UDF函数,均可在
spark-sql
中直接使用。经过importorg.apache.spark.sql.f
'煎饼侠
·
2023-09-03 01:11
spark
用seatunnel替代logstash,把数据从kafka抽取到ES
seatunnel(2.1.3)调用
spark-sql
(2.4)、flink-sql(1.14)对结构化数据进行处理;能够通过配置,在一个任务里调度多个source和sink文章目录一、为sparkstructuredstreaming
百战天王
·
2023-09-02 19:07
java
kafka
elasticsearch
大数据
日志解析方法汇总
prefix=tran&max=2HTTP/1.1"--
spark-sql
解析字段(按csv格式读取)createtemporaryviewtmpusingcsvoptions('path'='oss_path
盛源_01
·
2023-08-30 04:21
经验分享
sql
spark
spark常用参数
spark-sql
\--masteryarn\--deploy-modeclient\--num-executors"20"\--executor-cores"2"\--executor-memory"
scottzcw
·
2023-08-17 05:53
spark-sql
(jdbc)本地模式导出csv或Excel文件
1.spark-sql读取数据jdbc或者hive数据本地模式导出依赖org.apache.poipoi-ooxml5.2.1org.apache.poipoi5.2.1jxljxl1.0commons-iocommons-io2.11.0注意:当前excel和commons-io版本都是较较新版本,而commons-io在spark的jars安装目录下也在commons-io的包,如版本冲突,找
SimpleSimpleSimples
·
2023-08-13 10:02
spark
sql
excel
注册spark UDF实例1【入门必修第一篇,简单函数注册,scala,python】
写在前面:关于spark的UDF你不得不清楚的区分和理解它适用的范围(
spark-Sql
还是DataFrame)和不同语言下的使用方法(scala还是python)。1、注册SQL的UDF自定义函数。
Just Jump
·
2023-08-11 18:19
spark
Spark权威指南
spark
UDF
Spark SQL & Elasticsearch
SparkSQL&Elasticsearch一、读取二、转换三、写入四、适配分析器方案五、示例一、读取使用
spark-sql
读取es数据如下代码所示:SparkSessionsession=SparkSession.builder
柴狗狗
·
2023-08-09 12:55
Spark
elasticsearch
spark
1、sparkStreaming概述
1、sparkStreaming概述1.1SparkStreaming是什么它是一个可扩展,高吞吐具有容错性的流式计算框架吞吐量:单位时间内成功传输数据的数量之前我们接触的spark-core和
spark-sql
Wzideng
·
2023-08-07 13:51
#
spark
spark
stream
spark-ml
spark
在
spark-sql
/ spark-shell / hive / beeline 中粘贴 sql、程序脚本时的常见错误
有时候我们会粘贴一段已经成功运行过的SQL或程序脚本,但是在
spark-sql
/spark-shell/hive/beeline中执行时可能会报这样的错误:hive>CREATEEXTERNALTABLEIFNOTEXISTSORDERS
Laurence
·
2023-08-03 10:59
大数据专题
spark
sql
hive
Display
possibilities
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。使用方法csvspark.sql("select*fromcsv.
kikiki2
·
2023-08-02 17:58
spark-sql
: “java.lang.NoSuchFieldError: out“ 异常解决
异常现象atjava.lang.reflect.Method.invoke(Method.java:498)atorg.apache.spark.deploy.JavaMainApplication.start(SparkApplication.scala:52)atorg.apache.spark.deploy.SparkSubmit.org$apache$spark$deploy$SparkS
骑着蜗牛向前跑
·
2023-08-02 03:30
大数据
spark
sql
java
spark-sql
处理json字符串的常用函数
整理了
spark-sql
处理json字符串的几个函数:1get_json_object解析不含数组的json2from_json解析json3schema_of_json提供生成json格式的方法4explode
士弘毅
·
2023-07-22 23:35
大数据
spark
sql
json
spark-sql
优化
1任务拆解1)原始查询sql(多个etype,多个dt查询,数据量过大查询不出来)selectdt,etype,count(distinctgazj)fromtable_namewheredtbetween'20201101'and'20210228'andetypein('10410007','10410008')andget_json_object(eparam,'$._pkg')='net.
盛源_01
·
2023-07-22 14:21
spark
sql
spark
数据库
Spark-SQL
连接JDBC的方式及代码写法
提示:文章内容仅供参考!目录一、数据加载与保存通用方式:加载数据:保存数据:二、Parquet加载数据:保存数据:三、JSON四、CSV五、MySQL一、数据加载与保存通用方式:SparkSQL提供了通用的保存数据和数据加载的方式。这里的通用指的是使用相同的API,根据不同的参数读取和保存不同格式的数据,SparkSQL默认读取和保存的文件格式为parquet加载数据:spark.read.loa
羙橘
·
2023-07-16 23:13
spark
学习
大数据
sql
hive
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2023-07-13 16:36
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2023-06-15 18:44
Spark UI
SQLTab这是spark-shell提交queries,展示得都是console这是
spark-sql
提交queries,展示得都是sql
zhixingheyi_tian
·
2023-06-14 22:18
spark
spark
大数据
分布式
SPARK-SQL
内置函数之字符串函数
转自:http://www.cnblogs.com/feiyumo/p/8763186.html1.concat对于字符串进行拼接concat(str1,str2,…,strN)-Returnstheconcatenationofstr1,str2,…,strN.Examples:>SELECTconcat('Spark','SQL');SparkSQL2.concat_ws在拼接的字符串中间添加
ASKED_2019
·
2023-04-19 03:41
大数据
Spark Thrift Server 部署与应用
前言在介绍sparkthriftserver需要先介绍一下其与hiverserver2及
spark-sql
的关系与区别HiveServer2Hive提供了一个命令行终端,在安装了Hive的机器上,配置好了元数据信息数据库和指定了
PONY LEE
·
2023-04-18 19:20
spark
spark
hive
big
data
大数据hive篇--hive去重
distinct2.使用groupby3.使用row_number()4.使用leftjoin5.使用位操作:unionall+groupby1.使用distinct问题:每个app下只保留一个用户案例:
spark-sql
在路上的小苑
·
2023-04-13 18:14
大数据
大数据
hive
hadoop
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他