E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark-SQL
人人都懂
Spark-SQL
基础操作(Scala版)
SparkSQL简单的说SparkSQL是spark用来操作结构化和半结构化数据的接口。本文来讲述一下它的一些基本操作。SparkSQL的特性无缝地将SQL查询和spark程序混合,与常规的Python/Java/scala代码高度整合,包含了连接RDD与SQL表、公开的自定义SQL函数接口等。可以从各种结构化数据源中读取数据,如(JSON、HIVE等)可以通过JDBC或者ODBC连接,Spark
数据山谷
·
2020-07-13 10:09
Spark
Spark-SQL
优化案例---股票点击实时排行
Spark-SQL
优化案例---股票点击实时排行,需求每天股票点击统计排列统计、每小时股票统计排列统计,及天与小时的环比变化。
kwu_ganymede
·
2020-07-13 06:21
Spark
spark-sql
排行
优化
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。使用方法csvspark.sql("select*fromcsv.
大猪大猪
·
2020-07-12 21:21
spark sql实战—拆分数据
在
spark-sql
中提供了多个函数用来进行数据拆分。数据拆分的函数splitexplodepostexplodesubs
一 铭
·
2020-07-12 19:00
spark
sql实战
spark
【Spark】Expected only partition pruning predicates
在Hive向Spark迁移时,我们可能直接将HSQL语句直接运行在
Spark-SQL
上,如果查询时针对的是Hive分区表(非DataSource表,DataSource表无此问题),使用分区字段过滤时分区字段为大写
PowerMe
·
2020-07-12 05:51
Spark-SQL
简介
分享到...复制网址邮件QQ空间新浪微博腾讯微博微信人人网易信网易微博搜狐微博QQ好友开心网飞信豆瓣一键分享查看更多(122)这是什么工具?JiaThis石山园博客园首页新闻新随笔联系管理订阅随笔-83文章-0评论-140Spark入门实战系列--6.SparkSQL(上)--SparkSQL简介【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取1、Spa
reb12345reb
·
2020-07-10 01:53
Hadoop
hive/
spark-sql
: Cannot find DistCp
最近发现
spark-sql
执行insertoverwrite等操作时最后move文件是一个一个的操作,效率较低而且还会存在bug(具体bug其余文章讲解)。因此进行了修改,修改后发现如下报错。
一日两点水
·
2020-07-09 12:53
错误总结
重新编译spark 增加
spark-sql
适配CDH
参考资料让clouderamanager装的spark支持hqlApacheSpark学习:将Spark部署到Hadoop2.2.0上CDH内嵌spark版本不支持
spark-sql
,可能是因为cloudera
Dino系我
·
2020-07-09 05:12
spark
Spark-Sql
的UDF功能实际运用、
Spark-Sql
中使用if返回多条件查询结果、Mysql中case-when多条件查询
项目实战之
Spark-Sql
的UDF功能实际运用、
Spark-Sql
中使用if返回多条件查询结果、Mysql中case-when多条件查询1、
Spark-Sql
的UDF功能实际运用通过spark.udf.register
坚强的小土豆
·
2020-07-08 21:02
Spark-Sql
整合hive,在
spark-sql
命令和spark-shell命令下执行sql命令和整合调用hive
1.安装hive如果想创建一个数据库用户,并且为数据库赋值权限,可以参考:http://blog.csdn.net/tototuzuoquan/article/details/527855042.将配置好的hive-site.xml、core-site.xml、hdfs-site.xml放入$SPARK_HOME/conf目录下[root@hadoop1conf]#cd/home/tuzq/sof
to.to
·
2020-07-08 07:14
#
Spark(大数据分析引擎)
cdh5.9添加sparksql cli直接操作hive
由于项目需要,需要在cloudera的spark中直接用sparksql操作hive,但是cloudera的spark中没有sparksqlcli(也就是没有
spark-sql
命令),有关解决方案网上比较多
tianjun2012
·
2020-07-08 07:19
cdh
在Yarn上运行spark-shell和
spark-sql
命令行
有时候在做开发测试的时候,需要使用spark-shell和
spark-sql
命令行,除了Local和Sparkstandalone模式,spark-shell和
spark-sql
也可以运行在yarn上,
smile_lty
·
2020-07-08 06:14
spark
【平台运维】监控进程资源使用
在做
Spark-SQL
压测时,需要监控Driver进程和Executor进程的CPU和内存的使用情况,以观察两种进程的压力,用了一个命令:pidstat找到Driver或者Executor的进程号,比如
PowerMe
·
2020-07-07 07:50
Spark2.3.0集成hive3.1.1遇到的一个坑HikariCP
Spark2.3.0集成hive3.1.1遇到的一个坑HikariCPhive.metastore.schema.verificationfalse启动
spark-sql
或者创建相关对象,都会报错,错误如下
weixin_44166276
·
2020-07-06 05:35
spark
hive/
spark-sql
经典笔试面试题(一)累加计算
问题描述在数据仓库中有这样一张表,记录了每个月的营业额,数据如下:表名:test:字段:1、month;2、money需要统计截止到每个月份的营业总额,如:截止到2019年1月份营业总额为10元截止到2019年2月份营业总额为10+10=20元截止到2019年3月份营业总额为10+10+10=30元以此类推…先贴出最终结果的样子:方案一简单粗暴计算直接使用where条件过滤符合的数据,使用sum函
波波菜鸟
·
2020-07-06 04:35
spark
Hive
赫拉(hera)分布式任务调度系统之架构,基本功能(一)
文章目录为数据平台打造的任务调度系统全部文章前言架构设计目标支持任务的定时调度、依赖调度、手动调度、手动恢复支持丰富的任务类型:shell,hive,python,
spark-sql
,java可视化的任务
甄情
·
2020-07-05 13:52
java
任务调度系统
分布式任务调度系统
赫拉调度
赫拉分布式任务调度
spark-sql
流程解析
最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性、容错性、扩展性等,假以时日,让其经过一定的改造,比如引入Paxos、raft等,强化自己在分布式领域的能力,相信一定会在大数据系统中占有一席之地。相反,大数据相关技术优势在于其天生的扩展性、可用性、容错性等,但其SQL优化器经验却基本全部来自于传统
壹禅
·
2020-07-05 10:49
spark
Spark SQL合并小文件的一种方法
可通过如下调整,使其自适应的合并小文件(本人测试环境从原来的200个小文件合并成一个文件)解决方法:
spark-sql
>setspark.sql.adaptive.enabled=true;启用AdaptiveExe
微步229
·
2020-07-02 08:03
Spark
秋名山老司机从上车到翻车的悲痛经历,带你深刻了解什么是 Spark on Hive!| 原力计划...
上车前需知Sparkonhive与hiveonspark的区别1.Sparkonhive是spark通过
Spark-SQL
使用hive语句,操作hive,底层运行的还是sparkrdd。
CSDN资讯
·
2020-07-01 02:51
SparkSql 项目实战
第1章准备数据我们这次
Spark-sql
操作中所有的数据均来自Hive.首先在Hive中创建表,并导入数据.一共有3张表:1张用户行为表,1张城市表,1张产品表CREATETABLE`user_visit_action
zfq-0314
·
2020-06-30 13:44
SparkSQL
大数据
spark-sql
中视图关联表结果不匹配问题
在sparkSQL中将计算结果保存为视图,关联其他表后出现结果匹配错误,通过分析发现,是因为sql语句中使用了表达式row_number()over(orderby1)其实该表达式并没有执行,真正执行的时候是需要触发action(例如show,count,top.......)算子的。或者在保存为视图之前,将结果持久化到内存中。(1)结果不匹配println("--------增加自增列,保存为视
脆皮软心
·
2020-06-30 10:00
spark-sql
中视图关联表结果不匹配问题
在sparkSQL中将计算结果保存为视图,关联其他表后出现结果匹配错误,通过分析发现,是因为sql语句中使用了表达式row_number()over(orderby1)其实该表达式并没有执行,真正执行的时候是需要触发action(例如show,count,top.......)算子的。或者在保存为视图之前,将结果持久化到内存中。(1)结果不匹配println("--------增加自增列,保存为视
菩提本无树,明镜亦非台
·
2020-06-30 10:00
Spark--Spark SQL
Spark-Sql
介绍及使用SparkSql概述Sparksql的前世今生什么是SparkSql为什么要学习SparkSQLDataFrame什么是DataFrameDataFrame与RDD的区别DataFrame
youAreRidiculous
·
2020-06-30 08:28
详解
代码实现
EMR
Spark-SQL
性能极致优化揭秘 Native Codegen Framework
作者:周克勇,花名一锤,阿里巴巴计算平台事业部EMR团队技术专家,大数据领域技术爱好者,对Spark有浓厚兴趣和一定的了解,目前主要专注于EMR产品中开源计算引擎的优化工作。背景和动机SparkSQL多年来的性能优化集中在Optimizer和Runtime两个领域。前者的目的是为了获得最优的执行计划,后者的目的是针对既定的计划尽可能执行的更快。相比于Runtime,Optimizer是更加通用的、
weixin_45906054
·
2020-06-29 16:10
hive/
spark-sql
经典笔试面试题(二)连续登录天数最大
问题描述在数据仓库中存在这样一张表,记录了2019年所有用户在哪天登录了我司的网站或者app。数据如下:表名:test2字段:idstring,pdaystring需求:统计用户在本年中连续登录天数最大是几天?如:用户A在7月1、2、3、4日连续登录了4天;6、7、8日连续3天;11、12连续2天。用户A的当年最大连续登录天数是4天用户B在6月29日,6月30日,7月1日连续登录3天。用户B的当年
波波菜鸟
·
2020-06-29 09:14
spark
Spark-SQL
查看执行计划API
举个例子:scala>spark.sql(“selectcount(1)asnumsfromgdm.gdm_m03_glb_item_sku_dawheredt=‘2020-06-08’”).explain(true)在Spark.sql()方法后加explain,入参为true返回类型为Unit//解析逻辑执行计划==ParsedLogicalPlan=='Project['count(1)AS
Cold丶kl
·
2020-06-29 06:31
大数据之禅
Spark-SQL
之DataFrame操作大全
一、DataFrame对象的生成
Spark-SQL
可以以其他RDD对象、parquet文件、json文件、hive表,以及通过JDBC连接到
weixin_30355437
·
2020-06-27 18:50
Spark中使用kyro序列化
spark-sql
中默认使用的是kyro的序
wangweislk
·
2020-06-27 13:03
Spark
Spark-SQL
从MySQL中加载数据以及将数据写入到mysql中(Spark Shell方式,Spark SQL程序)
1.JDBCSparkSQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame,通过对DataFrame一系列的计算后,还可以将数据再写回关系型数据库中。1.1.从MySQL中加载数据(SparkShell方式)1.启动SparkShell,必须指定mysql连接驱动jar包[
[email protected]
]#bin/spark-she
to.to
·
2020-06-26 20:06
#
Spark(大数据分析引擎)
spark-sql
实现Kudu同步数据到mysql
Kudu同步数据到mysql实施方案简介目前kudu导出到mysql没有比较好的方案,临时借助
spark-sql
进行数据导出,处理逻辑是会把老的数据给删除再导入,已经完成了生产环境的上线。
tianjun2012
·
2020-06-26 19:04
spark
入门大数据---Spark_Structured API的基本使用
示例如下:valspark=SparkSession.builder().appName("
Spark-SQL
").master(
一线大数据
·
2020-06-26 15:00
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2020-06-25 23:22
简述hive的架构
一般做数仓进行脚本开发都是通过hive与beeline进行开发,当然也有
spark-sql
。2、hive-webui:这个本人目前没用过,但是HUE组件是可以通过WEBUI对hive进行操作。
走在路上的大神
·
2020-06-25 11:22
HIVE
Spark-SQL
处理小文件问题
一、小文件产生的原因1、在使用sparksql处理数据的过程中,如果有shuffle产生,依赖于spark.sql.shuffle.partitions配置信息,默认为200,当处理的数据量比较大时,通常会把该值调大,以避免单个分区处理的数据太大出现异常或者拖慢整个任务的执行时间。2、如果没有shuffle产生,文件的数量依赖于数据源的文件数量以及文件是否可切分等特性决定任务的并发度即task数量
九指码农
·
2020-06-24 23:25
spark及问题解决
spark-sql
Spark-SQL
adaptive 自适应框架
一、自适应框架能解决什么问题1、目前SparkSQL中reduce阶段的task个数取决于固定参数spark.sql.shuffle.partition(默认值200),一个作业一旦设置了该参数,它运行过程中的所有阶段的reduce个数都是同一个值。而对于不同的作业,以及同一个作业内的不同reduce阶段,实际的数据量大小可能相差很大,比如reduce阶段要处理的数据可能是10MB,也有可能是10
九指码农
·
2020-06-24 23:25
spark-sql
spark
hive
自适应框架
adaptive
spark-sql
测试总结
spark-sql
测试总结最近倒腾
spark-sql
,原来测试都是很小的数据,由于自己的是6个虚拟机资源有限,也不能太大,于是在找了帖子。
富兰克林008
·
2020-06-24 18:13
spark-sql
10.1
spark-sql
10亿级数据交互式秒级查询可行性
当前版本:saprk2.4cdh数据演示为10亿,41列sparksql提供了类sql的标准,支持数学函数,聚合函数,时间函数,字符串函数,支持已经很完善了参考:https://spark.apache.org/docs/2.4.0/api/sql/index.htmlOneuseofSparkSQListoexecuteSQLqueries.SparkSQLcanalsobeusedtoread
我的海_
·
2020-06-24 01:28
spark-sql
部署实现与Hive交互
spark-sql
部署版本Hadoop-2.5.0-cdh5.3.2Hive-0.13.1-cdh5.3.2Spark-1.5.1以CNSH001节点为例sparkmaster在CNSH001上:spark
developerinit
·
2020-06-23 03:52
spark1.63升级到spark2.3.1环境变量配置
由于spark2.3需要jdk1.8的支持,因此spark-submit与
spark-sql
需要指定jdk版本,具体方式见测试用例1.修改个人用户配置文件.bashrc,注释以前的spark环境与java
cjlion
·
2020-06-22 23:08
spark
Spark-sql
计算某行值占累加总数的百分比
先看原数据结构和数据样例SparkSessionspark=SparkSession.builder().master("local[*]").getOrCreate();Datasettable=spark.read().json("src/main/data/transfer_line_count.json");table.printSchema();table.show();root|--f
小白鸽
·
2020-06-22 16:14
Spark
Spark2.2(五)SparkSQL读写Hive
SparkSQL读写Hive添加依赖libraryDependencies++=Seq("org.apache.spark"%%"spark-core"%"2.2.0","org.apache.spark"%%"
spark-sql
H_w
·
2020-06-22 08:30
Spark
Error while instantiating 'org.apache.spark.sql.hive.HiveSessionState'
我在windows下面用idea运行
spark-sql
程序的时候,报了上面的那个错误,我尝试了很多方法,都没有啥效果,后来我往下继续阅读错误,发现了这个实质性错误Exceptioninthread"main"java.lang.UnsatisfiedLinkError
TheManOfCoding
·
2020-06-22 06:40
spark
大数据实战项目之新闻话题分析 学习笔记(十)
文章目录第21章:SparkSQL快速离线数据分析SparkSQL概述及特点SparkSQL服务架构SparkSQL与Hive集成(Spark-Shell)SparkSQL与Hive集成(
Spark-sql
爱学习的Neehong
·
2020-06-22 05:50
技术学习
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2020-06-22 02:32
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2020-06-21 12:58
通过 spark sql 支持 elasticsearch 的多表(两表或以上) sql 关联查询
目前针对SQLonElasticSearch已经有了比较好的解决方案:elasticsearch-sql,其实
Spark-SQL
也可以满足一些基本的ES数据探查的需求,实现起来也相对简单。
丧心病狂の程序员
·
2020-06-21 09:01
database
spark
elasticsearch
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2020-06-21 03:12
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2020-04-13 12:41
spark无法同时启动thriftserver和
spark-sql
CLi的解决办法
报错如下:Initialjobhasnotacceptedanyresources:Investigatingtheclusterstate查看spark的8080页面发现,两个任务资源不够用(借用的图,忘记截屏了,但是意思一样)spark主要是因为spark默认为应用有一个初始分配资源的配置,如果机器配置不合理,就会导致资源申请失败需要修改spark-defaults.conf下的两个参数:sp
nicklbx
·
2020-04-12 11:48
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2020-04-11 13:12
上一页
3
4
5
6
7
8
9
10
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他