E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
RDD Join 性能调优
SparkCore和
SparkSQL
的基本类型都支持join操作。虽然join很常用而且功能很强大,但是
卓寿杰_SoulJoy
·
2020-09-15 23:20
Spark
通过一条SQL分析
SparkSQL
执行流程(二)
目录一、
SparkSql
执行步骤二、
SparkSql
执行步骤详细描述2.1)用户构建SparkSession,调用sql函数2.2)构建SessionState2.2.1)解析器2.2.2)Catalog2.2.3
北京小辉
·
2020-09-15 23:50
sparksql
中timestamp相关函数
2019独角兽企业重金招聘Python工程师标准>>>from_timestamp(long):数字(秒)=>字符串(yyyy-MM-ddHH:mm:ss)unix_timestamp(String):字符串(yyyy-MM-ddHH:mm:ss)=>数字(秒)to_timstamp(String):字符串(yyyy-MM-ddHH:mm:ss)=>TimestampTypecast(longas
weixin_33785972
·
2020-09-15 18:14
大数据
python
scala
SparkSQL
与SparkCore出指标
scala:2.10.6pom.xml4.0.0job2JobNew1.0-SNAPSHOT-->org.apache-->spark-assembly-1.6.0-hadoop-2.6.0-->1.6.0-->-->log4jlog4j1.2.17mysqlmysql-connector-java5.1.31org.apache.sparkspark-graphx_2.101.6.0com.ty
weixin_30413739
·
2020-09-15 18:49
大数据
java
数据库
sparkcore,
sparksql
, sparkstreaming,sparkmlib
MapReduce(1)分布式计算框架,只能用Java进行开发。MapReduce–>Hive(1)由于MR只有Java程序员才能开发,但是程序员大部分都会sql,所以衍生出类sql语法HQL(HiveQueryLanguage).Hive其实是基于MR的一种分布式计算框架,在MR上包了一层壳,底层仍然是MR。MapReduce–>sparkcore(1)MR的shuffle过程中数据要频繁的落地
醉糊涂仙
·
2020-09-15 18:55
spark
spark学习-
SparkSQL
-SparkSession与SparkContext
SparkSession-Spark的一个全新的切入点SparkSession是Spark2.0引如的新概念。SparkSession为用户提供了统一的切入点,来让用户学习spark的各项功能。 在spark的早期版本中,SparkContext是spark的主要切入点,由于RDD是主要的API,我们通过sparkcontext来创建和操作RDD。对于每个其他的API,我们需要使用不同的cont
九师兄
·
2020-09-15 17:37
大数据-spark
Spark----
SparkSQL
之SparkSession
SparkSession是Spark-2.0引如的新概念。SparkSession为用户提供了统一的切入点,来让用户学习Spark的各项功能。在Spark的早期版本中,SparkContext是Spark的主要切入点,由于RDD是主要的API,我们通过sparkContext来创建和操作RDD。对于每个其他的API,我们需要使用不同的context。例如:对于SparkStreaming,我们需要
XiaodunLP
·
2020-09-15 16:51
Spark
SparkSQL
HiveQL迁移至Spark SQL入门示例(PySpark版)
查看报错的方式五、执行脚本时遇到【XXXnotfound】报错的处理方式(配置hive-site.xml)六、其他希望读者了解到的面向群体:为提高可维护性,需要快速将大量HiveQL脚本通过PySpark迁移到
SparkSQL
蓝天之猪
·
2020-09-15 16:39
大数据
Spark
Hive
Pyspark
SparkSQL
-与Spark Core整合案例
/***每日top3热点搜索词统计案例*@authorAdministrator**/publicclassDailyTop3Keyword{publicstaticvoidmain(String[]args){SparkConfconf=newSparkConf().setAppName("DailyTop3Keyword");JavaSparkContextsc=newJavaSparkCon
Anbang713
·
2020-09-15 16:47
大数据/Spark/Spark
SQL
PySpark之Spark SQL的使用《七》
一、
SparkSQL
简介
SparkSQL
isApacheSpark'smoduleforworkingwithstructureddata.
SparkSQL
是一个用于结构化数据处理的Spark模块。
爬虫研究僧
·
2020-09-15 16:02
大数据
python
flink
kafka
hadoop
spark
mapreduce
SparkSQL
编程之SparkSession新的起始点
在老的版本中,
SparkSQL
提供两种SQL查询起始点:一个叫SQLContext,用于Spark自己提供的SQL查询;一个叫HiveContext,用于连接Hive的查询。
qq_43193797
·
2020-09-15 16:11
spark
spark-core 和spark-sql的区别
转自:http://www.cnblogs.com/zlslch/p/6685679.html
SparkSQL
构建在SparkCore之上,专门用来处理结构化数据(不仅仅是SQL)。
光圈1001
·
2020-09-15 16:39
spark
大数据
scala
SparkSql
-数据源
常用加载/保存默认数据源是parquet,除非用spark.sql.sources.default配置参数定义为其他。valusersDF=spark.read.load("examples/src/main/resources/users.parquet")usersDF.select("name","favorite_color").write.save("namesAndFavColors.
.Mr Zhang
·
2020-09-15 16:42
Spark
Spark SQL 外部数据源
SparkSQL
外部数据源1.概述外部数据源API方便快速从不同的数据源(json,parquet,rdbms)引入处理数据,经过混合处理,写回到指定文件系统上去。
wtzhm
·
2020-09-15 15:06
sparksql
基于PySpark的航天日志分析(SQL分析)
文章目录1、导入PySpark包2、创建SparkSession实例对象3、读取数据(Schema()信息)读取数据方法1读取数据方法24、查看DataFrame数据信息(显示完整【列名】不省略)6、
SparkSQL
SongpingWang
·
2020-09-15 15:36
大数据
机器学习—算法及代码
pyspark数据分析
sparkSQL
之读取不同数据源的数据
objectDataSourceTest2{//读取不同的数据源defmain(args:Array[String]):Unit={valspark:SparkSession=SparkSession.builder().master("local[*]").appName("w").getOrCreate()valsc:SparkContext=spark.sparkContextsc.setL
古城的风cll
·
2020-09-15 15:05
大数据
Specified key was too long; max key length is 767 bytes。
问题:
sparksql
连接hive的元数据(mysql库)时报错:Specifiedkeywastoolong;maxkeylengthis767bytes。
kingloneye
·
2020-09-15 15:14
大数据
hive
通过自定义
SparkSQL
外部数据源实现
SparkSQL
读取HBase
2019独角兽企业重金招聘Python工程师标准>>>包:
sparksql
.hbaseHBaseRelation.scalapackage
sparksql
.hbaseimport java.io.Serializableimport
weixin_34007020
·
2020-09-15 15:46
大数据
scala
python
Spark SQL,如何将 DataFrame 转为 json 格式
用过
SparkSQL
应该知道,Sparkdataframe本身有提供一个api可以供我们将数据转成一个JsonArray,我们可以在spark-shell里头举个栗子来看一下。
weixin_33709609
·
2020-09-15 15:01
Spark 系列(八)
SparkSQL
和集成数据源-及简单优化方案----简化工作的利器!!
文章目录
SparkSQL
和集成数据源-及简单优化:
SparkSQL
优化器--CatalystOptimizer具体流程:
SparkSQL
API:具体优化流程:原流程:优化流程:DataSet与DataFrame
NICEDAYSS
·
2020-09-15 14:53
Spark
数据库
大数据
spark
hadoop
sql
SparkSQL
外部数据源
http://spark.apache.org/docs/latest/sql-programming-guide.html#data-sources
大米饭精灵
·
2020-09-15 14:49
Spark
Spark
SparkSQL
读取Cassandra数据源
pom依赖com.datastax.sparkspark-cassandra-connector_2.112.0.0-M1org.apache.sparkspark-sql_2.112.1.1scala版importcom.datastax.spark.connector.CassandraRowimportcom.datastax.spark.connector.rdd.CassandraRDD
铁头乔
·
2020-09-15 14:11
SparkSQL
Spark SQL读取外部数据源
SparkSQL
读取外部数据源1、
SparkSQL
可以加载任何地方的数据,例如mysql,hive,hdfs,hbase等,而且支持很多种格式如json,parquet,avro,csv格式。
明天你好lk
·
2020-09-15 14:36
大数据
Spark(1)——Spark的安装
Spark简介支持多种开发语言:Scala,Java,Python,R涉及的领域SparkCore数据的离线分析->MapReduceSparkStreaming数据在在线分析->(实时处理)Strom
SparkSQL
lime_
·
2020-09-15 14:04
大数据项目设计
sparksql
小文件生成过多,导致job之间任务出现大量空白时间
由于时间久远。该问题十分具有代表性。所以今天将其记录一下。本人使用的是华为C70集群,spark1.5.1的版本,由于版本问题。原先批处理一个小时的程序变慢一倍。达到2小时的处理时长。以jstack和jstat的方式大量观察,排除了gc和oom的问题。那么问题到底出在哪里?截图为内网。我无法拿出来。我用语言描述一下:即为可以从sparkUI界面观察得出。job界面中多个stage之间存在了很多空白
deepthinkers
·
2020-09-15 14:13
spark
sparksql
程序慢
小文件较多
SparkSQL
部署与简单使用
Øhadoop-2.6.0-cdh5.7.0ØScala:2.11.8Øspark-2.3.1-bin-2.6.0-cdh5.7.0(需要自己编译)Øhive-1.1.0-cdh5.7.0ØMySQL5.6二、
SparkSQL
csdn3993023
·
2020-09-15 13:01
大数据
操作系统
java
SparkSql
处理各种数据源
文章目录
SparkSql
的各种数据源1.JDBC2.csv3.Json4.parquet5.Hive
SparkSql
的各种数据源1.JDBC首先创建程序入口和jdbc连接:得到的是DataFrame类型数据
Icedzzz
·
2020-09-15 13:25
spark
hadoop
mysql
sql
Spark |
SparkSql
Insert Overwrite 小文件过多
SparkSql
在执行HiveInsertOverwriteTable操作时,默认文件生成数和表文件存储的个数有关,但一般上游表存储个数并非下游能控制的,这样的话得考虑处理小文件问题。
点滴笔记
·
2020-09-15 13:06
Spark
spark
Spark Sql 小文件问题
https://github.com/Intel-bigdata/spark-adaptivehttp://spark.apache.org/docs/latest/configuration.html使用
SparkSql
APIs
RunTravis
·
2020-09-15 13:34
Spark
spark
大数据
Spark系列--
SparkSQL
(六)数据源
前言
SparkSQL
的数据源:结构化的文件(json,parquet),或者是Hive的表,或者是外部的数据库(mysql),也或者是已经存在的RDD。
淡淡的倔强
·
2020-09-15 13:47
Spark
Apache Spark数据分析教程(二):Spark SQL
本教程(第二部分)将对Spark生态系统中占有重要地位的
SparkSQL
和DataFrame进行介绍,给大家演示Spark
五柳-先生
·
2020-09-15 13:36
大数据-离线计算-Spark
SparkSQL
外部数据源
场景介绍:大数据MapReduce,Hive,Spark作业,首先需要加载数据,数据的存放源可能是HDFS、HBase、S3、OSSmongoDB;数据格式也可能为json、text、csv、parquet、jdbc..或者数据格式经过压缩,不同格式文件需要不同的解析方式,如果需要HDFS关联MySQL数据,可以通过sqoop进行一些列转换到,如果使用ExternalDataSourceAPI直接
csdn3993023
·
2020-09-15 13:44
大数据
Spark 2.4.0如何优雅地解决
sparksql
小文件过多的问题
在使用
SparkSql
进行项目开发的过程,往往会碰到一个比较头疼的问题,由于
SparkSql
的默认并行度是200,当sql中包含有join、groupby相关的shuffle操作时,会产生很多小文件;从集群优化的角度来说
拾荒路上的开拓者
·
2020-09-15 12:53
Spark
大数据
spark
SparkSQL
数据源
一、通用加载/保存方法1.1手动指定选项
SparkSQL
的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表。
不稳定记忆
·
2020-09-15 12:52
Spark
SparkSQL数据源
Spark学习案例——
SparkSQL
结合Kudu实现广告业务分析
下方有数据可免费下载目录原始数据项目架构ETL处理业务一业务二业务三代码重构打包定时运行源码地址https://github.com/chengyanban/spark-project/tree/master/广告数据分析原始数据下载数据:请点击我.提取码:3bm9有两个文件,一个广告业务的data-test.json,一个ip.txt文件项目架构ETL处理data-test.json文件中每行有
程研板
·
2020-09-15 12:30
#
Spark学习案例
spark
java
大数据
scala
SparkSQL
各种数据源相关操作
目录JSON文件文本文件parquet文件JSON转parquetMySQL文件Hive文件JSON文件defjson(spark:SparkSession):Unit={valjsonDF:DataFrame=spark.read.json("D:\\study\\workspace\\spark-sql-train\\data\\people.json")//jsonDF.show()json
程研板
·
2020-09-15 12:59
#
Spark基础与问题解决
hive
spark
Spark-SQL连接MySql关系型数据库
本文主要分析
SparkSQL
官方文档中有关于JDBCToOtherDatabases部分,以MySQL数据库为例,结合数据读写操作的实例代码进行详细的分析。
weixin_30885111
·
2020-09-15 08:17
大数据
数据库
spark-sql读取嵌套json数据
SparkSql
版本为2.2.0
sparksql
解析json格式的数据源首先,获取操作
sparkSql
的SparkSession操作实例:valsession=SparkSession.builder(
qq_43193797
·
2020-09-15 08:46
spark
数据库 数据仓库 NoSQL OLAP OLTP HTAP 预处理 内存数据库 流式计算 MPP架构 DAG架构 列存储 文档存储
数据库MySqlDruidPrestoKylinPostgreSQLTidbImpalaES
SparkSQL
oqiuqian
·
2020-09-15 07:50
大数据
Spark SQL, DataFrames and Datasets Guide
https://spark.apache.org/docs/1.6.3/sql-programming-guide.html#sql
SparkSQL
中所有功能的入口点是SQLContext类或其派生类。
天一涯
·
2020-09-15 06:46
大数据学习之路
spark
SparkSQL
简介
日期版本修订审批修订说明2016.10.201.0章鑫8初始版本1简介
SparkSQL
是Spark的一个组件,用于结构化数据的计算,
SparkSQL
提供了一个称为DataFrames的编程抽象,DataFrames
zx8167107
·
2020-09-15 03:17
sparkSQL
---自定义函数(UDF,UDTF,UDAF)
自定义函数被称为(UDF)UDF分为三种:UDF:输入一行,返回一个结果;一对一;比如定义一个函数,功能是输入一个IP地址,返回一个对应的省份UDTF:输入一行,返回多行(hive);一对多;
sparkSQL
weixin_43866709
·
2020-09-15 03:36
spark
Spark读取csv文件
String]):Unit={Logger.getLogger("org").setLevel(Level.WARN)valspark=SparkSession.builder().appName("
SparkSql
2
庐州小白
·
2020-09-15 03:52
大数据
spark
Apache
SparkSQL
概念
SparkSQL
概念
SparkSQL
是Spark用来处理结构化数据的一个模块。
SparkSQL
还提供了多种使用方式,包括DataFramesAPI(SQL)和DatasetsAPI(HQL)。
大数据AIRDE
·
2020-09-15 03:51
#
Spark
spark
Spark SQL概念学习系列之Spark SQL基本原理
SparkSQL
基本原理1、
SparkSQL
模块划分2、
SparkSQL
架构--catalyst设计图3、
SparkSQL
运行架构4、Hive兼容性1、
SparkSQL
模块划分
SparkSQL
模块划分为
i_data
·
2020-09-15 03:11
Spark
大数据
spark
sql
架构
设计
SparkSQL
注册自定义函数
SparkSql
可以方便地使用sql来处理数据,实际中经常会大量使用。在处理复杂逻辑时,为了避免写出又长又难以理解的SQL,可以实现自定义函数,再将其注册后,供sql调用。
法相
·
2020-09-15 03:40
spark
SparkSQL
UDF两种注册方式:udf() 和 register()
调用sqlContext.udf.register()此时注册的方法只能在sql()中可见,对DataFrameAPI不可见用法:sqlContext.udf.register("makeDt",makeDT(_:String,_:String,_:String))示例:defmakeDT(date:String,time:String,tz:String)=s"$date$time$tz"sql
weixin_30296405
·
2020-09-15 03:31
大数据
python
scala
Spark系列--
SparkSQL
(五)用户自定义函数
一、用户自定义UDF函数通过spark.udf功能用户可以自定义函数。scala>valdf=spark.read.json("/input/people.json")scala>spark.udf.register("addName",(x:String)=>"Name:"+x)res18:org.apache.spark.sql.expressions.UserDefinedFunction=
淡淡的倔强
·
2020-09-15 03:39
Spark
spark sql介绍
sparksql
介绍Spark1.0版本开始,推出了
SparkSQL
。
大数据的未来
·
2020-09-15 03:22
spark学习之路
SparkSQL
是什么(概括)
SparkSQL
-概括简介
SparkSQL
是Spark整体架构用来处理结构化数据的模块,
SparkSQL
的接口为Spark提供了有关数据结构和执行信息,在内部,
SparkSQL
使用这些额外的信息来优化应用程序
稳哥的哥
·
2020-09-15 03:31
SparkSQL
上一页
28
29
30
31
32
33
34
35
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他