E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
Spark SQL部分简单使用详解
SparkSQL
简介
SparkSQL
是Spark处理数据的一个模块,跟基本的SparkRDD的API不同,
SparkSQL
中提供的接口将会提供给Spark更多关于结构化数据和计算的信息。
万事于足下
·
2020-09-11 05:48
Spark
Spark SQL 操作 Hive 表数据
只是记得使用如下格式spark.sql("xxxxxx").show即可如果嫌麻烦,还可以直接使用spark-sql进行查询,直接写sql即可操作hive,如下结果为:编程方式操作Hive代码如下object
SparkSQL
HiveDemo
路飞DD
·
2020-09-11 05:47
SparkSQL
Spark
大数据
Hive
Hadoop
Spark
SparkSQL
操作
Hive
SparkSQL
保存
parquet
到
hdfs
SparkSession
操作
Hive
SparkSession
hive使用spark引擎的几种情况
使用spark引擎查询hive有以下几种方式:1>使用spark-sql(
sparksql
cli)2>使用spark-thrift提交查询sql3>使用hiveonspark(即hive本身设置执行引擎为
weixin_30275415
·
2020-09-11 04:26
Spark SQL & Spark Hive编程开发, 并和Hive执行效率对比
SparkSQL
也公布了很久,今天写了个程序来看下
SparkSQL
、SparkHive以及直接用Hive执行的效率进行了对比。以上测试都是跑在YARN上。
wbj0110
·
2020-09-11 04:46
Spark
关于所使用的spark版本中的spark sql不支持exists和in等子查询语句的解决方案记录
stackoverflow上一篇很好的问题解答解决方法:
SparkSQL
doesn'tcurrentlyhaveEXISTS&IN."
Janvn
·
2020-09-11 04:37
Spark
sparksql
性能调优
性能优化参数代码实例importjava.util.List;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.spark.sql.api.java.JavaSQLContext;importorg.apache.spark.sql.api.java.
岸芷汀兰whu
·
2020-09-11 04:56
sparksql
spark
Spark SQL与Hive On MapReduce速度比较
今天就拿基于Spark的
SparkSQL
和基于MR的Hive比较一下,因为
SparkSQL
也兼容了HiveQL,我们就可以通过运行相同的HiveQL语句,比较直观的看出到底快多少了。
mishidemudong
·
2020-09-11 04:51
SPARK
SparkSQL
_Spark2+ 的
SparkSQL
性能调优
参考文章:1.Spark2+的sql性能调优https://www.cnblogs.com/yyy-blog/p/10260988.html更多参考官方文档!!!http://spark.apache.org/docs/latest/sql-performance-tuning.html重要的要点在内存中缓存数据性能优化相关参数广播分区数据的调控文件与分区文件格式1、在内存中缓存数据性能调优主要是
高达一号
·
2020-09-11 04:14
Spark
Spark on hive 与 Hive on spark 的区别
读了百度上的一些关于Sparkonhive与HiveonSpark的区别的文章,感觉理解太复杂,自己总结一下SparkonHive:数据源是:hiveSpark获取hive中的数据,然后进行
SparkSQL
适合不合适
·
2020-09-11 03:49
大数据相关技术总结
【备忘】年薪50万2018年最新Spark2.0从入门到精通教程
Spark从入门到精通(Scala编程,案例实战,高级特性,Spark内核源码剖析,Hadoop高端)用到技术:Scala,Spark,
SparkSQL
,SparkStreaming涉及项目:每日uv和销售额统计
风一样的男人_
·
2020-09-11 02:30
spark
总结:Hive,Hive on Spark和
SparkSQL
区别 - MrLevo520的博客 - CSDN博客
https://blog.csdn.net/MrLevo520/article/details/76696073
hdyrz
·
2020-09-11 01:46
Spark SQL实战:使用Spark SQL 连接hive ,将统计结果存储到 mysql中
1.需求:使用
SparkSQL
连接hive,读取数据,将统计结果存储到mysql中2.将写好的代码打包上传的集群,然后提交spark运行,前提是hive,HDFS已经启动3.代码:(1)pom.xmlorg.apache.sparkspark-core
Movle
·
2020-09-11 00:45
Spark实战
Spark学习笔记
交流学习加群460570824DataSource->Kafka->SparkStreaming->Parquet->
SparkSQL
(
SparkSQL
可以结合ML、GraphX等)->Parquet-
专业大数据
·
2020-09-11 00:36
大数据
大数据
spark
SparkSQL
中的 hint
SparkSQL
2.2增加了HintFramework的支持,允许在查询中加入注释,让查询优化器优化逻辑计划。
stone-zhu
·
2020-09-11 00:06
Spark
spark sql操作hive sql 和mysql
sparksql
访问hive和mysql(不断更新)一,准备工作:1,添加mysql的驱动jar包。
唐伯虎怒点秋香
·
2020-09-10 23:14
spark
Hive on Spark 与Spark SQL比较
HiveonSpark与
SparkSQL
比较背景HiveonSpark是由Cloudera发起,由Intel、MapR等公司共同参与的开源项目,其目的是把Spark作为Hive的一个计算引擎,将Hive
吉阿
·
2020-09-10 23:14
Spark
Hive
Spark SQL性能调优(Spark2.3.2)
1.在内存中缓存数据
SparkSQL
可以通过调用spark.catalog.cacheTable("tableName")或dataFrame.cache()使用内存中的列式格式来缓存表。
西贝木土
·
2020-09-10 22:16
Spark
SQL
Spark
Spark SQL快速入门系列之Hive
目录一.hive和
sparksql
的集成方式(面试可能会问到)二.spark_shell和spark_sql操作spark_shellspark_sql使用hiveserver2+beeline三.脚本使用
大数据技术与架构
·
2020-09-10 18:26
IDEA开发
SparkSQL
程序
SparkSession常用函数与方法方法说明builder创建一个sparkSession实例version返回当前spark的版本implicits引入隐式转化emptyDataset[T]创建一个空DataSetrange创建一个DataSet[Long]sql执行sql查询(返回一个dataFrame)udf自定义udf(自定义函数)table从表中创建DataFramecatalog访问
寒 暄
·
2020-09-10 16:16
#
---SparkSQL
dataFrame操作
package
sparkSQL
importorg.apache.spark.sql.{DataFrame,SparkSession}/***Createdbysicongon2017/3/9.
思cong
·
2020-09-10 15:34
scala
spark
spark
Zeppelin组件配置和使用:连接Spark
Spark的核心分析栈包括SparkCore、
SparkSQL
、SparkStreaming、MLlib、GraphX等,面向批处理、流处理、图计算、机器学习等场景,实现了生态融合统一,基于相同的数据结构
机器熊技术大杂烩
·
2020-09-10 15:14
Zeppelin
Spark
Apache
3.Spark基础学习三(Spark_SQL)
什么是
SparkSQL
SparkSQL
是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。
做个合格的大厂程序员
·
2020-09-02 16:03
Hive安装与简单使用并集成
SparkSQL
Hive环境搭建hive下载:http://archive-primary.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gzwgethttp://archive-primary.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz解压tar-zxvfhive-1.1.0-cdh5.7.0.tar.g
留歌_36
·
2020-08-26 23:27
SparkSQl
的使用
SparkSql
现在有两个版本,方式如下:方式一:使用sql版本//提交的这个程序可以连接到spark集群中valconf=newSparkConf().setAppName("SaparkDemo1"
不愿透露姓名的李某某
·
2020-08-26 23:14
第1章 初探大数据
主站最受欢迎的TopN课程按流量统计imocc主站最受欢迎的TopN课程大数据的到来任职要求.熟悉Linux操作系统,熟悉Linuxshell编程.熟悉Java或者scala语言,具有一年以上实际开发经验.熟悉
sparksql
weixin_SAG
·
2020-08-26 09:10
Spark
SQL
大数据
Kafka+Spark Streaming+Redis实时系统实践
基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像SparkStreaming、
SparkSQL
、MLlib、GraphX,这些内建库都提供了高级抽象
ljtyxl
·
2020-08-26 09:29
bigdata
Kafka+Spark Streaming+Redis实时系统实践
基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像SparkStreaming、
SparkSQL
、MLlib、GraphX,这些内建库都提供了高级抽象
javastart
·
2020-08-26 09:56
spark
demo2 Kafka+Spark Streaming+Redis实时计算整合实践 foreachRDD输出到redis
基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像SparkStreaming、
SparkSQL
、MLlib、GraphX,这些内建库都提供了高级抽象
weixin_34416754
·
2020-08-26 09:16
SparkSQL
中group by、grouping sets、rollup和cube方法详解
在平时的工作中,经常有按照不同维度筛选和统计数据的需求。拿视频会员订单数据来说吧,运营人员要查看深圳市的成功下单数或则深圳市某一种产品的成功下单数或者某一种产品的所有成功下单数时,每天的订单数又很大,现查的话按照不同的维度去查询又很慢。此时本篇文章或许会帮助到你。groupby:主要用来对查询的结果进行分组,相同组合的分组条件在结果集中只显示一行记录。可以添加聚合函数。groupingsets:对
腾飞的大象
·
2020-08-26 09:48
Hadoop YARN:调度性能优化实践
离线业务主要运行的是HiveonMapReduce,
SparkSQL
为主的数据仓库作业。实时业务主要运行SparkStreaming,Flink为主的实时流计算作业。
美团技术团队
·
2020-08-26 08:20
hadoop
大数据
资源管理器
Spark基础
为其它场景提供了底层的服务
SparkSQL
:是Spark处理结构化数据的库,就像HiveSQL,Mysql一样。
班得瑞的猫
·
2020-08-25 17:11
spark
如何计算留存率(Hive Sql or Spark sql)
看下面这个例子:如上示例所示,我们如何通过HiveSql或者
SparkSql
解决
沙漏遗失了年华
·
2020-08-25 17:21
SQL
用
sparkSql
计算留存用户
测试数据channel1appkey12018-12-0316:47:38:0006.6.6android1startAppmsgssssssssspage3154235805800015423580580001channel1appkey12018-12-0316:47:38:0006.6.6android2startAppmsgssssssssspage31542358058000154235
妖果yaoyao
·
2020-08-25 15:49
sparksql
留存用户
MongoDB on
SparkSql
的读取和写入操作(Python版本)
MongoDBon
SparkSql
的读取和写入操作(Python版本)1.1读取mongodb数据python方式需要使用pyspark或者spark-submit的方式进行提交。
加码帝国
·
2020-08-25 12:35
spark
大数据
IDEA 开发环境中 调试Spark SQL及遇到问题解决办法
IDEA开发环境中调试
SparkSQL
及遇到问题解决办法1.问题java.lang.OutOfMemoryError:PermGenspacejava.lang.OutOfMemoryError:Javaheapspace7
勤奋等于工资
·
2020-08-25 11:51
SparkSQL
操作外部数据源
parquet数据hive表数据mysql表数据hive与mysql结合1.处理parquet数据启动spark-shell:spark-shell--masterlocal[2]--jars~/software/mysql-connector-java-5.1.27-bin.jar在spark-shell模式下,执行标准的加载方法:valpath="file:///home/hadoop/app
sparkle123
·
2020-08-25 11:19
二十Spark1和Spark2的区别
mllib-collaborative-filtering.html1开始去spark官网下载源码2安装步骤3运行Spark自带的例子4根据业务来5了解RDD原理MASTER,WORKER6了解Spark的各个组件,
sparksql
张金玉
·
2020-08-25 05:18
spark_kafka
What Is the Role of Machine Learning in Databases?
机器学习来改善
SparkSQL
的优化器?欲知效果如何,请读附送的paper,里面的实验结果是基于Spark2.3。
smilegator
·
2020-08-25 01:46
自己下载导入的spark sql包引起的IDEA编译任何程序都报错
交代下前因后果:学习
SparkSQL
过程中:在pom.xml中配置这段话,maven仓库并没有下载,只是提示找不到这个依赖;遂去到这个网址http://mvnrepository.com是maven仓库的国内镜像地址
zhikanjiani
·
2020-08-24 18:25
高级班Spark-SQL
SparkSQL
执行时的优化参数
近期接手了不少大数据表任务调度补数据的工作,补数时发现资源消耗异常的大且运行速度却不怎么给力.发现根本原因在于
sparkSQL
配置有诸多问题,解决后总结出来就当抛砖引玉了.具体现象内存CPU比例失调一个
掌控自己就能掌控世界
·
2020-08-24 17:50
Spark
SparkStreaming(1)入门
参考于:https://blog.csdn.net/qq_23660243/article/details/514814071、Hadoop的MapReduce及
SparkSQL
等只能进行离线计算,无法满足实时性要求较高的业务需求
joli_1034498274
·
2020-08-24 17:37
spark
Spark 学习(九)
SparkSQL
函数自定义和数据源
一,简介二,
SparkSQL
的函数自定义2.1函数定义2.2函数注册2.3示例三,spark的数据源读取3.1JSON3.2JDBC3.3ParQuet3.4CSV正文一,简介很多时候sql中的内置函数无法满足我们的日常开发需求
Angela㐅cc
·
2020-08-24 17:11
自定义
SparkSql
语法的一般步骤
SparkSql
提供了对Hive的结构化查询语言,在某些业务场景下,我们可能需要对sql语法进行扩展,在此以自定义merge语法说明其一般步骤。
RacingHeart
·
2020-08-24 16:46
Spark OLAP高阶分析函数总结
我们经常困惑在数据挖掘和报表分析场景中sql不会写,或者因为sql太长以至于可读性降低;今天我为大家总结了一些
SparkSQL
中的高阶函数,它们将会对你的业务形成助力,百倍提升你的工作效率GROUPING
易企秀工程师
·
2020-08-24 15:35
大数据
spark
EMR Spark Runtime Filter性能优化
目前在
SparkSQL
中有Filter下推优化,包括两个维度:生成Filter
SparkSQL
会
阿里云云栖号
·
2020-08-24 15:21
性能优化
spark
join
filter
sparksql
报错
执行时报错:org.apache.spark.sql.AnalysisException:Unabletogenerateanencoderforinnerclass`cn.itcast.spark.sql.Intro$Person`withoutaccesstothescopethatthisclasswasdefinedin.Trymovingthisclassoutofitsparentcl
dengmanzhou3124
·
2020-08-24 14:29
Update:
sparksql
:第1节
SparkSQL
_使用场景_优化器_Dataset
目标
SparkSQL
是什么
SparkSQL
如何使用TableofContents1.
SparkSQL
是什么1.1.
SparkSQL
的出现契机1.2.
SparkSQL
的适用场景2.
SparkSQL
初体验2.3
dengmanzhou3124
·
2020-08-24 14:29
采用 SPARK SQL自定义 数据源 访问 HBASE--数据读取篇
参考BLOGShttps://www.cnblogs.com/niutao/p/10801259.html列减枝+谓词下推自定义
sparkSQL
数据源的过程中,需要对
sparkSQL
表的schema和Hbase
csdn1981
·
2020-08-24 13:31
Spark-sql 读hbase
SparkSQL
是指整合了Hive的spark-sqlcli,本质上就是通过Hive访问HBase表,具体就是通过hive-hbase-handler拷贝HBase的相关jar包到Spark节点上的$SPARK_HOME
chenla5762
·
2020-08-24 13:28
Spark Structured Streaming + Kafka使用笔记
这篇博客将会记录StructuredStreaming+Kafka的一些基本使用(Java版)spark2.3.01.概述StructuredStreaming(结构化流)是一种基于
SparkSQL
引擎构建的可扩展且容错的
小鹅鹅
·
2020-08-24 13:08
Spark
Spark
/
Hadoop生态系列
上一页
31
32
33
34
35
36
37
38
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他