E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
spark大数据架构初学入门基础详解
Spark是什么a)是一种通用的大数据计算框架b)SparkCore离线计算
SparkSQL
交互式查询SparkStreaming实时流式计算SparkMLlib机器学习SparkGraphX图计算c)
13157330443
·
2019-11-27 22:11
spark
大数据
架构
【巨杉数据库SequoiaDB】巨杉Tech | 巨杉数据库数据高性能数据导入迁移实践
SequoiaDB一款自研金融级分布式数据库产品,支持标准SQL和分布式事务功能、支持复杂索引查询,兼容MySQL、PGSQL、
SparkSQL
等SQL访问方式。
OliverFinn
·
2019-11-27 15:47
巨杉数据库
【巨杉数据库SequoiaDB】巨杉Tech | 巨杉数据库数据高性能数据导入迁移实践
SequoiaDB一款自研金融级分布式数据库产品,支持标准SQL和分布式事务功能、支持复杂索引查询,兼容MySQL、PGSQL、
SparkSQL
等SQL访问方式。
SequoiaDB巨杉数据库
·
2019-11-27 15:00
Hadoop YARN:调度性能优化实践
离线业务主要运行的是HiveonMapReduce,
SparkSQL
为主的数据仓库作业。实时业务主要运行SparkStreaming,Flink为主的实时流计算作业。
艾弗森哇
·
2019-11-23 16:56
Hadoop
YARN
Spark 大数据分析-介绍
目录Spark的技术生态Sparkcore
SparkSQL
SparkstreamingMLlibGraphXSpark的基本原理ApplicationExecutorWorkerTaskJobStageDAGSchedulerTaskSchedulerRDD
sword_csdn
·
2019-11-17 12:32
Spark
四、spark--
sparkSQL
原理和使用
[TOC]一、
sparkSQL
概述1.1什么是
sparkSQL
SparkSQL
是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。
隔壁小白
·
2019-11-15 18:38
sparkSQL原理和使用
Spark
一、spark--spark基本概述
目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含
SparkSQL
、SparkStreaming、GraphX、MLlib等子项目,Sp
隔壁小白
·
2019-11-15 17:28
spark基本概述
Spark
Delta Lake - 数据湖的数据可靠性
这位是ApacheSpark的committer和PMC成员,也是
SparkSQL
的最初创建者,目前领导Databricks团队,设计和构建StructuredStreaming和DatabricksDelta
DataFlow范式
·
2019-11-14 20:04
spark 2.0 新特性
SparkCore&
SparkSQL
dataframe与dataset统一,dataframe只是dataset[Row]的类型别名,移除dataframe类。
Cherish_Qiang
·
2019-11-08 18:10
spark入门
批处理(hadoop)、迭代式运算(机器学习系统)、交互式查询(Hive)、流处理(Storm),降低了成本和其他大数据工具整合很好,如hadoop、kafka2.spark组件组件SparkCore
SparkSQL
SpartStreamingSp
全然大好人
·
2019-11-07 04:26
Spark SQL Catalyst优化器
记录一下个人对
sparkSql
的catalyst这个函数式的可扩展的查询优化器的理解,目录如下,0.Overview1.Catalyst工作流程2.Parser模块3.Analyzer模块4.Optimizer
chenfh5
·
2019-11-06 18:32
SparkSQL
– 从0到1认识Catalyst
转自:http://hbasefly.com/2017/03/01/
sparksql
-catalyst/最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。
严国华
·
2019-11-06 09:52
数据读取与存储
数据源类型文件系统中的不同文件格式数据源:支持文件系统包括NFS,HDFS,AmazonS3,支持的文件格式包括有:文本文件,JSON,SequenceFile,protocalbuffer
SparkSQL
Spike_3154
·
2019-11-06 03:14
Antlr4 - 自定义
SparkSQL
解析
>Antlr4是一个强大的解析器的生成器,可以用来读取、处理、执行或翻译结构化文本,ANTLR可以从语法上来生成一个可以构建和遍历解析树的解析器,最出名的Spark计算引擎2.x就是用它来解析SQL的,是一个牛到没朋友的家伙。##IDEA测试**IDEA语法分析插件**下载[antlr-v4-grammar-plugin](https://plugins.jetbrains.com/files/7
kikiki4
·
2019-11-05 00:02
大数据学习路线(完整详细版)
,hive,hbase,sqoop,zookeeper,flume)机器学习(R,mahout)Storm(Storm,kafka,redis)Spark(scala,spark,sparkcore,
sparksql
花半唐
·
2019-11-03 03:15
转载:一个
SparkSQL
作业的一生
一个
SparkSQL
作业的一生2015-12-11网易后台-马晓宇数据管理Spark是时下很火的计算框架,由UCBerkeleyAMPLab研发,并由原班人马创建的Databricks负责商业化相关事务
IQ75
·
2019-10-31 19:10
巨杉Tech |
SparkSQL
+SequoiaDB 性能调优策略
当今时代,企业数据越发膨胀。数据是企业的价值,但数据处理也是一种技术挑战。在海量数据处理的场景,即使单机计算能力再强,也无法满足日益增长的数据处理需求。所以,分布式才是解决该类问题的根本解决方案。而在分布式领域,有两类典型产品,分别是分布式存储和分布式计算。用户只有将两者的特性充分利用,才可以真正发挥分布式架构的存储和计算能力。本文介绍SequoiaDB(分布式存储)和Spark(分布式计算)两款
OliverFinn
·
2019-10-31 17:10
巨杉数据库
从零开始学习Spark(六)数据读取与保存
Spark支持以下三种主要数据源:1.文件格式(如JSON等)2.文件系统(如HDFS)3.
SparkSQL
中的结构化数据源4.数据库与键值存储(如Cassandra,JDBC等)这部分只是简单介绍一下
C就要毕业了
·
2019-10-31 14:04
PySpark读取Mysql数据到DataFrame!
Spark版本:2.1Python版本:2.7.12了解了SparkRDD之后,小编今天有体验了一把
SparkSQL
,使用
SparkSQL
时,最主要的两个组件就是DataFrame和SQLContext
文哥的学习日记
·
2019-10-31 13:02
Spark Core 解析:RDD
引言SparkCore是Spark的核心部分,是
SparkSQL
,SparkStreaming,SparkMLlib等等其他模块的基础,SparkCore提供了开发分布式应用的脚手架,使得其他模块或应用的开发者不必关心复杂的分布式计算如何实现
Liam
·
2019-10-30 05:25
spark
SparkSql
读写Hive 分区表(数据清洗类)
主要使用
SparkSql
对Hive分区表使用动态分区进行操作,根据规则对数据进行清洗等,除了刚导入数据时指定date范围清洗,后期按天进行清洗。
心有余力
·
2019-10-23 16:00
Spark
环境利用Spark处理 json 文件至SQL
.*///2.0
sparksql
统一的入口objectSparkSessionTest{defmain(args:Array[String]):Unit={System.setProperty("hadoop.h
一只挪威森林猫
·
2019-10-22 21:00
spark笔记第一天 (安装、组件)
目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含
SparkSQL
、SparkStreaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计
明檬 初见
·
2019-10-22 19:24
spark_1(概述与集群搭建)
目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含
SparkSQL
、S
lixg_0515
·
2019-10-21 19:25
Spark(六) SQL API
汇总
SparkSQL
和DataFrames的重要类:pyspark.sql.SparkSessionDataFrame和SQL功能的主要入口点。
得克特
·
2019-10-20 18:54
大数据
Spark学习笔记(一)
2.易用:支持多种语言3.通用:SparkCore、
SparkSQL
、SparkStreaming(流式计算)4.兼容性好:完全兼容HadoopSpar
Jayboy.chen
·
2019-10-19 09:56
大数据
如何避免生产Spark Shuffle的某场景
数据倾斜场景在对RDD使用join类操作,或者是在
SparkSQL
中使用join语句时,而且join操作中的一个RDD或表的数据量比较小(比如几百M或者一两G
黑马程序员广州
·
2019-10-17 03:04
大数据
Spark读取HBASE注册临时表使用
sparkSQL
查询计算
参考文档:scala版写的
SparkSQL
程序读取Hbase表注册成表SQL查询https://blog.csdn.net/qq_21383435/article/details/77328805第一种思路
我在北国不背锅
·
2019-10-15 15:09
Spark SQL数据倾斜解决方案
由于Spark都是基于RDD的特性,所以可以用纯RDD的方法,实现和
SparkSQL
一模一样的功能。之前在SparkCore中的数据倾斜的七种解决方案,全部都可以直接套用在
SparkSQL
上。
studyhardatEnglish
·
2019-10-14 17:35
spark
Spark无法读取hive 3.x的表数据
通过Ambari2.7.3安装HDP3.1.0成功之后,通过
sparksql
去查询hive表的数据发现竟然无法查询HDP3.0集成了hive3.0和spark2.3,然而spark却读取不了hive表的数据
鹏飞万丈
·
2019-10-14 11:00
SparkSql
之UDF、UDAF、UDTF
UDF----------------------------------------完整的示例:object
SparkSQL
{defmain(args:Array[String]):Unit={//创建
不急吃口药
·
2019-10-11 00:41
大数据资料笔记整理
SparkSQL
分隔字段和解析Json
原始数据格式为:timestamp|json(嵌套)1570384823445|{"cp_game_id":xxx,"category":"cp_api","event":{"event_time":"xxx","event_name":"money_flow"},"data":{"GAME_SERVER":"xxx","ROLE_ID":"xxx","ROLE_NAME":"xxx","ROLE
心有余力
·
2019-10-09 14:17
Spark
Hive 之 元数据表结构详解
本文介绍Hive元数据库中一些重要的表结构及用途,方便Impala、
SparkSQL
、Hive等
少年阿峣_从零单排
·
2019-10-08 16:20
Hive
RDD DataFrame DataSet 区别和转换
而右侧的DataFrame却提供了详细的结构信息,使得
SparkSQL
可以清楚地知
dufufd
·
2019-09-26 18:47
Spark
SPARK 2.2.1 SQL处理各种数据源的案例与解读
SparkSQL
支持从各种数据源加载文件构建DataFrame/DataSet,以及将DataFrame/DataSet保存到各种数据源中。
段智华
·
2019-09-26 18:12
AI
&
Big
Data案例实战课程
Spark 2.2.1 使用JDBC 操作其他数据库的案例与解读
Spark2.2.1使用JDBC操作其他数据库的案例与解读
SparkSQL
包括一个数据源,可以从其他数据库使用JDBC读取数据。这个功能优先于使用JdbcRDD。
段智华
·
2019-09-26 18:32
AI
&
Big
Data案例实战课程
27.1.1.3 Spark SQL 中ANTLR4的应用
27.1.1.3
SparkSQL
中ANTLR4的应用ANTLR是一个强大的解析器生成器,可用于读取,处理,执行或翻译结构化文本或二进制文件。它广泛应用于学术界和工业界,建立各种语言,工具和框架。
段智华
·
2019-09-26 18:31
SparkInBeiJing
hive任务优化-Current usage: 2.0 GB of 2 GB physical memory used; 4.0 GB of 16.2 GB virtual memory used.
mapreduce.map.memory.mb或者mapreduce.reduce.memory.mb(建议)3.适当增大yarn.nodemanager.vmem-pmem-ratio的大小4.换成
sparkSQL
MrZhangBaby
·
2019-09-24 16:50
Yarn
大数据之性能调优
Hive
Spark整合Mongodb的方法
通用性:我们可以使用
SparkSQL
来执行常规分析,SparkStreaming来流数据处理,以及用Mlib来执行机器学习等。Java,python,scala及R语言的支持也是其通用性的表现之一。
·
2019-09-24 15:46
Spark 系列(八)—— Spark SQL 之 DataFrame 和 Dataset
一、
SparkSQL
简介
SparkSQL
是Spark中的一个子模块,主要用于操作结构化数据。
heibaiying
·
2019-09-23 08:38
Spark
Spark
20-
SparkSQL
01
SparkSQL
IOESQL:schema+fileselect...fromxxxwhere.....SQLonHadoopHiveImpalaPrestoSharkDrillPhoenix
SparkSQL
HiveonSparkMapReduceTezSparkSparkAPISQLDataFrame
CrUelAnGElPG
·
2019-09-21 22:00
20-
SparkSQL
01
SparkSQL
IOESQL:schema+fileselect...fromxxxwhere.....SQLonHadoopHiveImpalaPrestoSharkDrillPhoenix
SparkSQL
HiveonSparkMapReduceTezSparkSparkAPISQLDataFrame
CrUelAnGElPG
·
2019-09-21 22:00
22-
SparkSQL
03
ExternalDataSourceAPI外部数据源MapReduceHiveSpark加载数据格式:json、parquet、text、jdbc......+compressionuser.jsonid:1,name:xxxid:"xx",name:xxx,session_id:xxxFileSystem:HDFS、HBase、S3、OSShdfs://......s3a://s3n://end
CrUelAnGElPG
·
2019-09-21 22:21
22-
SparkSQL
03
ExternalDataSourceAPI外部数据源MapReduceHiveSpark加载数据格式:json、parquet、text、jdbc......+compressionuser.jsonid:1,name:xxxid:"xx",name:xxx,session_id:xxxFileSystem:HDFS、HBase、S3、OSShdfs://......s3a://s3n://end
CrUelAnGElPG
·
2019-09-21 22:21
spark sql数据源--hive
使用的是idea编辑器
sparksql
从hive中读取数据的步骤:1.引入hive的jar包2.将hive-site.xml放到resource下3.
sparksql
声明对hive的支持案例:defmain
zhangqi00
·
2019-09-21 15:00
电商用户画像环境搭建
本项目采用
SparkSql
与hive进
qq5d3e5bae55f08
·
2019-09-20 14:22
电商用户画像环境搭建
【大数据】面试题0001---使用
SparkSQL
关联两个表求和取前几行
场景:有两个表,表可以是文本或Json数据,结构化后分别是Table1(A,B,C)和Table2(C、D、E),两个表通过C关联,要求求出D+E之和,并以(A、B、D+E)三列返回解答:思路:
SparkSQL
咸鱼翻身
·
2019-09-19 23:00
SparkSQL
处理增量更新与全量更新
SparkSQL
的增量更新项目包结构:工具类Utils:packagecom.zhbr.utilsimportjava.util.Propertiesimportorg.apache.spark.sql.execution.datasources.jdbc.JDBCOptionsimportorg.apache.spark.sql
我在北国不背锅
·
2019-09-19 09:36
Spark
SparkSQL
中两个decimal类型数据相除(相乘)为null的问题
源表pdwqy_qxzh_piu字段类型:如代码所示,在计算过程时,RFHL计算结果总是为null。代码://读取数据valdata:DataFrame=spark.read.format("jdbc").option("url","jdbc:mysql://21.76.120.XX:3306/us_app").option("dbtable","pdwqy_qxzh_piu").option("
我在北国不背锅
·
2019-09-18 15:57
SparkSQL
decimal
mysql
Spark
SparkSql
数据类型转换
前言数据类型转换这个在任何语言框架中都会涉及到,看起来非常简单,不过要把所有的数据类型都掌握还是需要一定的时间历练的
SparkSql
数据类型数字类型ByteType:代表一个字节的整数。
SunnyRivers
·
2019-09-18 11:18
spark
数据类型
cast
转换
Spark
上一页
60
61
62
63
64
65
66
67
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他