E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
Spark SQL:Hive数据源复杂综合案例实战
一、Hive数据源实战
SparkSQL
支持对Hive中存储的数据进行读写。操作Hive中的数据时,必须创建HiveContext,而不是SQLContext。
weixin_34390996
·
2020-08-18 12:36
8.Spark SQL:Hive数据源实战
Hive数据源实战
SparkSQL
支持对Hive中存储的数据进行读写。操作Hive中的数据时,必须创建HiveContext,而不是SQLContext。
十点进修
·
2020-08-18 12:29
spark
第3章
SparkSQL
解析
第3章
SparkSQL
解析3.1新的起始点SparkSession在老的版本中,
SparkSQL
提供两种SQL查询起始点,一个叫SQLContext,用于Spark自己提供的SQL查询,一个叫HiveContext
weixin_30914981
·
2020-08-18 12:28
59、Spark Streaming与Spark SQL结合使用之top3热门商品实时统计案例
一、top3热门商品实时统计案例1、概述SparkStreaming最强大的地方在于,可以与SparkCore、
SparkSQL
整合使用,之前已经通过transform、foreachRDD等算子看到,
weixin_30830327
·
2020-08-18 12:25
SparkSQL
读取Hive中的数据
下面主要是介绍一下如何通过
SparkSQL
读取HIVE中的数据。
weixin_30639719
·
2020-08-18 12:48
spark SQL(三)数据源 Data Source----通用的数据 加载/保存功能
SparkSQL
的数据源------通用的数据加载/保存功能
SparkSQL
支持通过DataFrame接口在各种数据源上进行操作。DataFrame可以使用关系变换进行操作,也可以用来创建临时视图。
weixin_30577801
·
2020-08-18 12:16
【大数据Spark_
SparkSQL
系列_1】Spark SQL基础(五星重要)
目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含
SparkSQL
、SparkStreaming、Graph
weixin_30384031
·
2020-08-18 12:39
spark面试题
Spark面试题1.
sparksql
执行过程中发生数据倾斜导致任务卡顿该怎么解决???
Dream__Boy
·
2020-08-18 12:03
面试知识点
Spark 企业级实战:
SparkSQL
多数据源整合
Spark生态较为完善,已经被越来越多的互联网公司应用于生产项目,对于ETL开发人员而言,日常数据同步任务和临时取数任务如果有基于Spark封装的一个小工具,办公效率会有大幅度提升。本场Chat会阐述企业现有的数据处理的痛点,以一个真实场景作为切入口,展开对需求的分析,开发一个简单且通用的工具,提升团队作战效率。本场Chat您将学到如下内容:掌握多数据源整合的方法(一条SQL实现MySQLjoin
蔚1
·
2020-08-18 12:18
大数据技术之_19_Spark学习_03_Spark SQL 应用解析 + Spark SQL 概述、解析 、数据源、实战 + 执行 Spark SQL 查询 + JDBC/ODBC 服务器
大数据技术之_19_Spark学习_03第1章
SparkSQL
概述1.1什么是
SparkSQL
1.2RDDvsDataFramesvsDataSet1.2.1RDD1.2.2DataFrame1.2.3DataSet1.2.4
黑泽君
·
2020-08-18 12:58
Spark学习笔记
SparkSQL
编程之DataFrame详解
SparkSession新的起始点在老的版本中,
SparkSQL
提供两种SQL查询起始点:一个叫SQLContext,用于Spark自己提供的SQL查询;一个叫HiveContext,用于连接Hive的查询
大数据小同学
·
2020-08-18 12:21
#
SparkSql
java
hive
sql
大数据
mysql
SparkSQL
编程之DataSet以及DataFrame与DataSet的互操作
DataSetDataset是具有强类型的数据集合,需要提供对应的类型信息。DataSet创建创建一个样例类scala>caseclassPerson(name:String,age:Long)definedclassPerson创建DataSetscala>valcaseClassDS=Seq(Person("Andy",32)).toDS()caseClassDS:org.apache.spa
大数据小同学
·
2020-08-18 12:21
#
SparkSql
大数据
spark
hive
java
zookeeper
SparkSQL
应用解析
文章目录第1章
SparkSQL
概述1.2RDDvsDataFramesvsDataSet1.2.1RDD1.2.2Dataframe1.2.3Dataset1.2.4三者的共性1.2.5三者的区别第2章执行
靛蓝忆
·
2020-08-18 12:43
大数据
大数据晋级之路(8)Scala,Spark分布式安装
一、Spark介绍Spark是一个生态系统,内核由Scala语言开发,为批处理(SparkCore)、交互式(
SparkSQL
)、流式处理(SparkStreaming)、机器学习(MLlib)、图计算
King-Long
·
2020-08-18 12:37
大数据
系统架构
Hadoop
架构师的修罗场
Spark/Scala/
SparkSQL
问题记录:使用Scala语言遍历DateFrame/DataSet数据集里的每一行、每一列
在贴代码之前先介绍一下DataFrame与DataSet,以下介绍内容来自以下博客:https://www.cnblogs.com/seaspring/p/5831677.htmlDataFrameDataFrame是一个分布式集合,其中数据逻辑存储结构为有名字的列。它概念上等价于关系数据库中的表,一个列名对应很多列值,但底层做了更多的优化。DataFrame可以从很多数据源构建,比如:已经存在的
wcl_24
·
2020-08-18 12:31
Spark_
SparkSQL
/ DataFrame 中 groupby 数据倾斜处理方法
Hive参考文章https://blog.csdn.net/u010003835/article/details/105495135下面我们看下
SparkSQL
如何解决这种GroupBy类型的数据倾斜思路如下
高达一号
·
2020-08-18 12:56
Spark
110.Spark大型电商项目-各区域热门商品统计-Spark SQL数据倾斜解决方案
目录摘要内容本篇文章记录各区域热门商品统计-
SparkSQL
数据倾斜解决方案。
StriveFarrell
·
2020-08-18 11:02
大数据
spark
电商用户行为分析
大数据必会指南
Yarn)04.HBase(JavaAPI操作+Phoenix)05.Hive(Hql基本操作和原理理解)06.Kafka07.Storm08.Scala需要09.Python10.Spark(Core+
sparksql
sonofbaba
·
2020-08-18 11:31
程序人生
Spark Streaming入门详解
SparkStreaming的流式处理非常强大的一个功能是可以在线处理,ML,
SparkSQL
等流进来的数据,这也是Spark提供的一体化,多元化的技术架构设计带来的优势。3.SparkSt
snail_gesture
·
2020-08-18 11:29
Spark
Streaming源码详解
scala
java
spark
大数据
数据
Spark SQL 和 Hive 的交互
SparkSQL
可以读写Hive表
SparkSQL
alsosupportsreadingandwritingdatastoredinApacheHive.However,sinceHivehasalargenumberofdependencies
ManBeCool
·
2020-08-18 11:53
RDD&DF&DS的相互转化
RDD&DF&DS的相互转化RDD\DF\DS之间的简单转换,当然可以通过Schema创建对应的DFpackagecom.shufang.
sparksql
importcom.shufang.beans.Numimportcom.shufang.utils.SparkUtilimportorg.apache.spark.rdd.RDDimportorg.apache.spark
稳哥的哥
·
2020-08-18 11:15
SparkSQL
本地local和kafka监听本地文件,进行sparkstreaming实时输出
所用软件版本:spark2.3.0kafka1.10IDEA2019.1(spark-streaming-kafka-0-8-2.11-2.3.0)先是用
sparksql
来监听特定目录下的某一个source
reedom1991
·
2020-08-18 11:03
spark
Spark SQL多数据源交互_第四章
SparkSQL
可以与多种数据源交互,如普通文本、json、parquet、csv、MySQL等1.写入不同数据源2.读取不同数据源写数据:packagecn.itcast.sqlimportjava.util.Propertiesimportorg.apache.spark.SparkContextimportorg.apache.spark.rdd.RDDimportorg.apache.sp
……utf-8
·
2020-08-18 11:27
spark
【Spark】Spark基础练习题(三)
(图片来源于网络,侵删)我又带来一堆Spark题了,这次是
SparkSQL
的!!!废话不多说,上题!!!
默默走开
·
2020-08-18 11:48
Spark
SparkSQL
读取hive中的数据,行转列的两种方式【行转列专用函数,UDAF】
先给数据:viemployees1,George,nan2,honey,nv3,georgedage,nan4,kangkang,nv上传数据:hdfsdfs-mkdir/secondhdfsdfs-putemployees/second/创表:createexternaltableemployees(emp_noint,emp_nameString,emp_genderString)rowfor
乔治大哥
·
2020-08-18 11:05
#
bigdata_Spark
Spark-SQL应用解析
DataFrameDataFrame->RDD2.RDDDataSetRDD->DataSetDataSet->RDD3.DataFrameDataSetDataFrame->DataSetDataSet->DataFrame三、
SparkSQL
2NaCl
·
2020-08-18 11:05
Spark
SparkSQL
随机DataFrame/DataSet数据源query查询用户数据(Java版/Scala版)
SparkSQL
随机DataFrame/DataSet数据源query查询用户数据(Java版/Scala版)
SparkSQL
入门小demo,主要操作是构造DataFrame/Dataset,以及通过它们去执行
王磊本人
·
2020-08-18 11:32
Java
Spark
Scala
it1002
SparkSQL
操作Hive数据源
连接Hive与
SparkSQL
将hive安装目录中conf目录下的hive-site.xml拷贝至spark安装目录下的conf目录。
寒 暄
·
2020-08-18 11:01
#
---SparkSQL
Spark-SQL在IDEA中创建
SparkSQL
程序|DF风格编程|RDD转换为DF
POMorg.apache.sparkspark-core_2.112.1.1org.apache.sparkspark-sql_2.112.1.1SparkCoreTestnet.alchim31.mavenscala-maven-plugin3.3.2compiletestCompileDF风格编程代码实现//1.创建SparkSession对象valspark:SparkSession=Sp
SmallScorpion
·
2020-08-18 11:55
Spark
零
SparkSql
概述
需要Sql的原因:1.事实上的标准2.易学易用3.受众面大Shark:HIveontezHiveonmapreduceHiveonSparkshark推出:欢迎,基于spark,基于内存的列式存储,与hive能够兼容缺点:hiveql解析,逻辑执行计划生成,执行计划的优化是依赖于hive的仅仅是把物理执行计划从mr作业替换为spark作业hive没有注意线程安全Shark终止以后,产生了两个分支:
慧有未来
·
2020-08-18 11:34
大数据
sparkSQL
数据倾斜
场景一:大表join小表:把小表broadcast,和cache到内存,并且大表加了distributebyrand()然后在spark-submit中加一个conf:spark.sql.autoBroadcastJoinThreshold=200000000。此配置限定小表大小,单位为字节,只要表大小小于此取值(此处约为200m),且被执行过cachetable的小表,在做join时,都会启用h
Sshine___
·
2020-08-18 11:31
sparkSql
hive导入hbase批量入库----单条put 、批量put 、Mapreduce、 bluckload
2、使用
sparksql
操作完hive处理好之后,调用HBase的AP
曹雪朋
·
2020-08-18 11:09
hbase
spark2.3.1 on hive2.2.1集成
spark可以通过读取hive的元数据来兼容hive,读取hive的表数据,然后在spark引擎中进行sql统计分析,从而,通过
sparksql
与hive结合实现数据分析将成为一种最佳实践。
mingchen_peng
·
2020-08-18 11:37
spark
Spark从入门到精通8 -- Spark SQL
SparkSQL
SparkSQL
简介
SparkSQL
是用来操作结构化数据的程序包,支持多种数据源(Hive表、Parquet、JSON),可以基于
SparkSQL
进行数据的查询,为数据计算提供数据入口。
开着小马奔腾哟
·
2020-08-18 11:50
大数据
SparkSQL
的几种输出格式及压缩方式
1、json默认不压缩可用压缩格式:none,bzip2,gzip,lz4,snappy,deflate2、parquet默认压缩格式:snappy可用压缩格式:none,snappy,gzip,lzovalPARQUET_COMPRESSION=buildConf("spark.sql.parquet.compression.codec").doc("Setsthecompressioncode
机智的大脚猴
·
2020-08-18 11:01
Spark
Spark-Sql版本升级对应的新特性汇总
Spark-Sql版本升级对应的新特性汇总
SparkSQL
的前身是Shark。由于Shark自身的不完善,2014年6月1日ReynoldXin宣布:停止对Shark的开发。
kwu_ganymede
·
2020-08-18 11:24
Spark
Spark SQL中防止数据倾斜sqlContext.sql中添加distribute by rand()
一、在
SparkSQL
中有时会因为数据倾斜影响节点间数据处理速度,可在SQL中添加distributebyrand()来防止数据倾斜valdataRDD=sqlContext.sql("selectA,
hjw199089
·
2020-08-18 11:21
[3]Spark
大数据系统-
SparkSQL
基于内存的大数据分析引擎
[1]参考文章:高彦杰,陈冠诚
SparkSQL
:基于内存的大数据分析引擎《程序员》2014.8AMPLab将大数据分析负载分为三大类型:批量数据处理、交互式查询、实时流处理。
gao8658
·
2020-08-18 11:02
基础架构
基于案例一节课贯通Spark Streaming流计算框架的运行源码
在线动态计算分类最热门商品案例回顾与演示基于案例贯通SparkStreaming的运行源码使用SparkStreaming+
SparkSQL
来在线动态计算电商中不同类别中最热门的商品排名,例如手机这个类别下面最热门的三款手机
cary_1991
·
2020-08-18 10:49
Spark
版本定制
Spark
Streamin
IMF
Spark版本定制
Spark
Streaming
IMF
大数据
Spark
大数据技术之_19_Spark学习_03_Spark SQL 应用解析小结
==========
SparkSQL
==========1、
SparkSQL
是Spark的一个模块,可以和RDD进行混合编程、支持标准的数据源、可以集成和替代Hive、可以提供JDBC、ODBC服务器功能
aodawu2891
·
2020-08-18 10:02
如何开发
SparkSQL
项目?
前言Spark是企业中用的比较多的大数据计算框架,它主要由SparkCore、
SparkSQL
、SparkStreaming这三个模块组成,实时计算主要使用SparkStreaming,离线部分的数据处理则主要使用
曲健磊
·
2020-08-18 10:55
【Spark】
SparkSQL
on Hive 环境配置
一、从linux上的shell访问1、Spark要接管Hive需要把hive-site.xml拷贝到conf/目录下[root@hadoop151conf]#cp/opt/module/hive/conf/hive-site.xml/opt/module/spark/conf/[root@hadoop151conf]#pwd/opt/module/spark/conf[root@hadoop151
火成哥哥
·
2020-08-18 10:51
spark
maven
spark
hive
大数据
apache
SparkSQL
基础编程
一、介绍SparkCore中,如果想要执行应用程序,需要首先构建上下文环境对象SparkContext,
SparkSQL
其实可以理解为对SparkCore的一种封装,不仅仅在模型上进行了封装,上下文环境对象也进行了封装
火成哥哥
·
2020-08-18 10:19
spark
数据库
大数据
java
spark
spark-sql
PySpark---
SparkSQL
中的DataFrame(三)
1.filter(condition)"""Filtersrowsusingthegivencondition.:func:`where`isanaliasfor:func:`filter`.:paramcondition:a:class:`Column`of:class:`types.BooleanType`orastringofSQLexpression."""按照传入的条件进行过滤,其实wh
XiaodunLP
·
2020-08-18 10:13
PySpark
Spark
PySpark---
SparkSQL
中的DataFrame(二)
1.colRegex(colName):"""Selectscolumnbasedonthecolumnnamespecifiedasaregexandreturnsitas:class:`Column`."""用正则表达式的方式返回我们想要的列。df.show()#这里注意`的使用df.select(df.colRegex("`(grade)+.+`")).show()上面的(grade)是一个
XiaodunLP
·
2020-08-18 10:13
Spark
PySpark
Python
Spark----Spark SQL概述
SparkSQL
概述什么是
SparkSQL
SparkSQL
是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。
XiaodunLP
·
2020-08-18 10:13
Spark
SparkSQL
推荐系统
提供了从前端应用、后台服务、算法设计实现等多方面实现2项目数据流图2.1系统初始化部分通过
SparkSQL
将系统初始化数据加载到Mon
TUJC
·
2020-08-18 10:35
大数据知识总结
pyspark之DataFrame写hive表方式
文章目录spark语句静态分区动态分区
sparkSQL
处理方法例子最近用spark写hive的过程中,遇到了一些问题,故此把这一块整理整理,供使用参考spark语句hive中静态分区和动态分区的区别在于
SummerHmh
·
2020-08-18 10:32
SPARK
SparkSQL
核心编程
文章目录
SparkSQL
核心编程新的起点DataFrame创建DataFrame从Spark数据源进行创建从RDD进行转换从HiveTable进行查询返回SQL语法DSL语法RDD转换为DataFrameDataFrame
溜三丝耶
·
2020-08-18 10:25
Spark
[2.2]Spark DataFrame操作(二)之通过反射实现RDD与DataFrame的转换
分析上述问题属于
SparkSQL
类问题:即查询出第三个字段值为11大
彭宇成
·
2020-08-18 10:15
Spark
上一页
35
36
37
38
39
40
41
42
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他