E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
SparkSql
概念总结
SparkSql
目录
SparkSql
1、SparkonHive和HiveonSpark2、DataFrame和DataSet3、
SparkSql
底层架构4、什么是谓词下推?
每日小新
·
2022-03-02 07:14
Java+大数据之旅
spark
使用SQL实现车流量的计算的示例代码
目录卡口转换率1、查出每个地区下每个路段下的车流量2、通过错位连接获取每辆车的行车记录3、获取行车过程中的车辆数4、获取每个卡口的总车辆数5、求出卡口之间的转换率卡口转换率将数据导入hive,通过
SparkSql
·
2022-02-28 13:17
10亿数据量的即席查询 spark 和 kylin的对比
Kylin与
SparkSQL
相比,有哪些差异和优势
SparkSQL
本质上是基于DAG模型的MPP。而Kylin核心是Cube(多维立方体)。
肥猫64
·
2022-02-28 11:14
Hive(一)基础知识
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能,hive底层是将SQL语句转换为MapReduce任务运行(类似于插件Pig\impala\
SparkSql
牛逸凡
·
2022-02-28 11:38
Hive
Hive
Spark之
SparkSQL
1、
SparkSQL
介绍Hive是shark的前身,Shark是
SparkSQL
的前身,
SparkSQL
产生的根本原因是为了完全脱离Hive的限制。
一流觞
·
2022-02-28 10:09
spark
hive
big
data
关于
sparksql
操作hive,读取本地csv文件并以parquet的形式装入hive中
说明:spark版本:2.2.0hive版本:1.2.1需求:有本地csv格式的一个文件,格式为${当天日期}visit.txt,例如20180707visit.txt,现在需要将其通过spark-sql程序实现将该文件读取并以parquet的格式通过外部表的形式保存到hive中,最终要实现通过传参的形式,将该日期区间内的csv文件批量加载进去,方式有两种:1、之传入一个参数,说明只加载一天的数据
weixin_30892889
·
2022-02-27 14:33
大数据
java
开发工具
Spark读取csv文件,清洗后存入Hive库中
SparkSQL
抽取Mysql全量数据到Hive动态分区表中配置好相关依赖,然后将集群中的hive-site.xml文件复制一份放在项目中的resources目录下。
月亮给我抄代码
·
2022-02-27 14:33
hive
spark
big
data
spark sql 创建rdd以及DataFrame和DataSet互转
sparksql
创建rdd以及DataFrame和DataSet互转使用SparkSession读取本地文件创建rddDateSet的介绍DataFrame的介绍Rdd转DateFrame读取本地文件得到
a18792721831
·
2022-02-27 14:32
大数据
spark
scala
spark
sql
big
data
thriftserver
spark连接thrift
sparksql
将国家统计局csv文件解析并存储在hive表
sparksql
将国家统计局csv文件解析并存储在hive表目的分析数据下载数据标准化数据存储开发环境集成实现项目创建依赖数据标准化DataFrame行列转置数据存储主程序逻辑验证启动本地存储远程存储总结
a18792721831
·
2022-02-27 14:00
大数据
spark
scala
python的pandas包使用教程_Python Pandas数据分析库使用教程
Pandas把结构化数据分为了三类:Series,1维序列,可视作为没有column名的、只有一个column的DataFrame;DataFrame,同
SparkSQL
中的DataFrame一样,其概念来自于
weixin_39752880
·
2022-02-27 11:12
Spark Sql 和DataFrame总结
SparkSql
和DataFrame总结1.
SparkSQL
概述2.DataFrame2.1DataFrame概述2.2DataFramevsRDD区别2.3PandasDataFramevsSparkDataFrame3
jialun0116
·
2022-02-27 11:31
大数据
推荐系统
大数据
python
spark
dataframe
SparkSQL
快速入门教程
目录(一)概述(二)
SparkSQL
实战(三)非JSON格式的Dataset创建(四)通过JDBC创建DataFrame(五)总结(一)概述
SparkSQL
可以理解为在原生的RDD上做的一层封装,通过
SparkSQL
·
2022-02-25 14:52
大数据课程——课后练习3
SparkSQL
:该组件是一个用于结构化数据处理的Spark工具包,提供了面向结构化数据的SQL查询接口,使用户可以通过编写S
冰冷灬泡面
·
2022-02-23 12:59
大数据课程学习
【学习】杂项
持续更新中一、
sparksql
和python的时序处理https://www.cnblogs.com/feiyumo/p/8760846.htmlhttps://www.runoob.com/python
X_Ran_0a11
·
2022-02-22 05:21
看
SparkSQL
如何支撑企业级数仓
企业级数仓架构设计与选型的时候需要从开发的便利性、生态、解耦程度、性能、安全这几个纬度思考。本文作者:惊帆来自于数据平台EMR团队前言ApacheHive经过多年的发展,目前基本已经成了业界构建超大规模数据仓库的事实标准和数据处理工具,Hive已经不单单是一个技术组件,而是一种设计理念。Hive有JDBC客户端,支持标准JDBC接口访问的HiveServer2服务器,管理元数据服务的HiveMet
·
2022-02-21 12:54
数据库字节跳动
看
SparkSql
如何支撑企业数仓
企业级数仓架构设计与选型的时候需要从开发的便利性、生态、解耦程度、性能、安全这几个纬度思考。本文作者:惊帆来自于数据平台EMR团队前言ApacheHive经过多年的发展,目前基本已经成了业界构建超大规模数据仓库的事实标准和数据处理工具,Hive已经不单单是一个技术组件,而是一种设计理念。Hive有JDBC客户端,支持标准JDBC接口访问的HiveServer2服务器,管理元数据服务的HiveMet
字节跳动数据平台
·
2022-02-21 12:00
spark-sql-perf
简介spark-sql-perf是一个
sparksql
性能测试框架,可以用来进行一些基准测试。
breeze_lsw
·
2022-02-21 10:12
1 Spark SQL 简介
1.概述
SparkSQL
是一层依赖SparkCore也就是基础操作的API封装出的一层组件.和GraphX类似,它的核心思想是解决两个问题:如何把底层数据结构化.在
SparkSQL
这里是结构化成表.值得一提的是
GongMeng
·
2022-02-20 11:59
Spark之没什么卵用笔记1之Spark SQL背景
前段时间买的《
SparkSQL
内核剖析》,这两天开始读,记些笔。笔记内容纯属本人YY,如有错误与书的作者无关。因为没接触过Shark,因此这里就简单带过一下
SparkSQL
的背景吧。
没什么卵用的杂鱼
·
2022-02-18 12:07
Spark SQL(一):DataFrame
SparkSQL
是Spark中的一个模块,主要用于进行结构化数据的处理,它提供的最核心的编程抽象,就是DataFrame;DataFrame,其实是针对数据查询这种应用,提供的一种基于RDD之上的全新概念
张凯_9908
·
2022-02-17 12:02
Spark SQL 开窗函数
谈到SQL的开窗函数,要说到HIVE了,因为这个是HIVE支持的特性,但是在
SparkSQL
中支持HIVE的。那么让我们看一看开窗函数是什么吧。什么是开窗函数呢?
麦穗一足
·
2022-02-17 12:38
[tools]Yarn & Spark/Spark-shell/Shark(
SparkSQL
的前身)
简单之美|HadoopYARN架构设计要点http://shiyanjun.cn/archives/1119.htmlYARN整体架构YARN是基于Master/Slave模式的分布式架构,我们先看一下,YARN的架构设计,如图所示(来自官网文档):yarn-high-level-architecture上图,从逻辑上定义了YARN系统的核心组件和主要交互流程,各个组件说明如下:一次Hadoop集
葡萄喃喃呓语
·
2022-02-16 11:56
教你如何让spark sql写mysql的时候支持update操作
目录1、首先了解背景2、如何让
sparkSQL
支持update3、改造源码前,需要了解整体的代码设计和执行流程4、改造源码如何让
sparkSQL
在对接mysql的时候,除了支持:Append、Overwrite
·
2022-02-15 16:59
Spark多语言开发
目录1多语言开发-说明2Java-Spark-掌握2.1SparkCore2.2SparkStreaming2.3
SparkSQL
2.4StructuredStreaming2.5线性回归算法-房价预测案例
赵广陆
·
2022-02-15 11:45
spark
spark
scala
big
data
一、初探大数据
一、能力要求Hadoop方向
SparkSql
部分
SparkSql
部分2
SparkSql
部分3Scala语言的选择环境参数二、环境使用2.1环境的目录结构~/software:所有课程相关的软件;~/app
薛定谔的猫_1406
·
2022-02-15 10:17
Spark SQL
目录一.
SparkSQL
基础1.
SparkSQL
简介2.
SparkSQL
的特点:3.基本概念:表:Datasets和DataFrames4.创建DataFrames5.操作DataFrame6.视图7.
Movle
·
2022-02-15 02:55
spark scala RDD基本操作
ResilientDistributedDataset-RDD)我使用spark比较晚,所以我使用dataframe比较多,听说rdd这块以后spark也停止更新了,但是目前dataframe还是不如rdd灵活,而且
sparkSQL
wong小尧
·
2022-02-14 10:46
Spark ML Pipelines
DataFrame:MLAPI使用
SparkSQL
中的DataFrame作为ML的数据集Transformer:Transformer是一种将DataFra
spraysss
·
2022-02-14 04:26
#SQL on Hadoop技术分析
目前比较主流的有Impala,
SparkSQL
,HAWQ,Tez,Drill,Presto,Tajo等。下面从技术层
葡萄喃喃呓语
·
2022-02-14 03:18
Dag图,Job生成
最近在负责SparkStreaming结合
SparkSql
的相关项目,语言是Java,留下一些笔记,也供大家参考,如有错误,请指教!
jason__huang
·
2022-02-13 11:11
Apache Spark在海致大数据平台中的优化实践
专注于大数据技术领域,ApacheSparkContributor,有丰富的
SparkSQL
引擎调优经验。海致全称海致网络技术公司,成立于2013年7月。
王知无
·
2022-02-11 04:34
5W字总结Spark(一)(建议收藏)
本文目录:一、Spark基础二、SparkCore三、
SparkSQL
四、SparkStreaming五、StructuredStreaming六、Spark两种核心Shuffle七、Spark底层执行原理八
坨坨的大数据
·
2022-02-10 18:12
presto、druid、
sparkSQL
、kylin的对比分析,如性能、架构等,有什么异同?
作者:iseeyou链接:https://www.zhihu.com/question/41541395/answer/114798939来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。这几个框架都是OLAP大数据分析比较常见的框架,各自特点如下:presto:facebook开源的一个java写的分布式数据查询框架,原生集成了Hive、Hbase和关系型数据库,Pr
大诗兄_zl
·
2022-02-10 17:31
Spark生态圈小贴士
学习Spark的基本组件,主要由
SparkSql
、SparkStreaming等构成,简单理解其基本原理,构建Spark生态的全貌。
采风JS
·
2022-02-10 05:38
关于实时数仓
大数据领域开源OLAP引擎包括不限于Hive、Hawq、Presto、Kylin、Impala、
SparkSQL
、Druid、Clickhouse、Greeplum等等。
夜丨雨
·
2022-02-09 15:49
spark Sql
一、什么是
sparkSql
SparkSQL
是Spark用来处理结构化数据的一个模块,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为分布式SQL查询引擎,是一种解析传统SQL
小月半会飞
·
2022-02-08 17:55
Spark从入门到精通01之基础理解
Spark是一种由Scala语言开发的快速、通用、可扩展的大数据分析引擎SparkCore中提供了Spark最基础与最核心的功能
SparkSQL
是Spark用来操作结构化数据的组件。
Coder-michael
·
2022-02-08 10:40
大数据
spark
scala
big
data
spark入门到精通
spark理解
Antlr4 - 自定义
SparkSQL
解析
>Antlr4是一个强大的解析器的生成器,可以用来读取、处理、执行或翻译结构化文本,ANTLR可以从语法上来生成一个可以构建和遍历解析树的解析器,最出名的Spark计算引擎2.x就是用它来解析SQL的,是一个牛到没朋友的家伙。##IDEA测试**IDEA语法分析插件**下载[antlr-v4-grammar-plugin](https://plugins.jetbrains.com/files/7
kikiki4
·
2022-02-07 19:03
SparkSQL
用户自定义函数UDF和UDAF、UDTF
实操执行UDFdefmain(args:Array[String]):Unit={valpath="C:/java/spark_practise/src/main/resources/input/people.json"valspark=SparkSession.builder().appName("SparkSessionTest").master("local[2]").getOrCreate
抬头挺胸才算活着
·
2022-02-06 17:14
全面解析SQL on Hadoop中用到的主要技术
考虑到系统使用的广泛程度与成熟度,在具体举例时一般会拿Hive和Impala为例,当然在调研的过程中也会涉及到一些其他系统,如
SparkSQL
,Presto,TAJO等。
丨程序之道丨
·
2022-02-06 11:31
SparkSQL
- NULL值多组测试结果
有很多种情况,
sparksql
语句中的某些字段是空的,想要知道sql中聚合函数对null的影响结果,下面做了几个测试用例。
大猪大猪
·
2022-02-05 14:17
sparksql
为什么比hive on spark 快
1、
sparksql
内存列存储2、
sparksql
的字节码生成技术,合并代码3、scala代码优化,尽量减少低效容易jc的代码,例如把for循环变成效率更高的while循环
scandly
·
2022-02-03 02:14
Presto 在字节跳动的内部实践与优化
•功能性方面:完全兼容
SparkSQL
语法,可以实现用户从Sp
·
2022-01-07 17:00
presto大数据字节跳动
大数据SQL优化之数据倾斜解决案例全集
外部表现的话,在HiveSQL任务里看到map或者reduce的进度一直是99%持续数小时没有变化;在
SparkSQL
里则是某个stage里,正在运行的任务数量长时间是1或者2不变。
·
2022-01-05 15:33
数据
ApacheCN 大数据译文集 20211206 更新
大数据分析实用指南零、前言一、安装Pyspark并设置您的开发环境二、使用RDD将您的大数据带入Spark环境三、Spark笔记本的大数据清理和整理四、将数据汇总成有用的报告五、强大的MLlib探索性数据分析六、使用
SparkSQL
·
2021-12-08 21:56
大数据
sparksql
之hive数据仓库安装及配置
一、安装概述计划使用
sparksql
组件从hive中读取数据,基于前三篇文章,我已经安装好了hadoop、spark和mysql,对于我想通过
sparksql
来读取hdfs上的数据来说,这三个软件必不可少
大胖圆儿小姐
·
2021-12-07 18:53
Spark SQL配置及使用教程
目录
SparkSQL
版本:
SparkSQL
DSL语法
SparkSQL
和Hive的集成Spark应用依赖第三方jar包文件解决方案
SparkSQL
的ThriftServer服务
SparkSQL
的ThriftServer
·
2021-12-03 15:20
Spark-Sql入门程序示例详解
SparkSQL
运行架构
SparkSQL
对SQL语句的处理,首先会将SQL语句进行解析(Parse),然后形成一个Tree,在后续的如绑定、优化等处理过程都是对Tree的操作,而操作的方法是采用Rule
·
2021-12-03 13:42
Spark综合学习笔记(二十九)
SparkSQL
分布式SQL引擎
学习致谢https://www.bilibili.com/video/BV1Xz4y1m7cv?p=66说明Hive的SQL交互方式方式1∶交互式命令行(CLI)·bin/hive,编写SQL语句及DDL语句方式2:启动服务HiveServer2(HiveThriftServer2)·将Hive当做一个服务启动(类似MySQL数据库,启动一个服务),端口为10000·交互式命令行,bin/beel
斯特凡今天也很帅
·
2021-12-01 19:29
大数据
spark
scala
spark
big
data
scala
Spark综合学习笔记(二十八)
SparkSQL
整合Hive-2
SparkSQL
代码中整合hive
学习致谢https://www.bilibili.com/video/BV1Xz4y1m7cv?p=65代码实现(1)pom文件导入spark-hive依赖org.apache.sparkspark-hive_2.122.3.2(2)注意:需要先启动Hive的metastorenohup/export/server/hive/bin/hive--servicemetastore&(3)编写代码pa
斯特凡今天也很帅
·
2021-12-01 17:17
HIVE
spark
大数据
spark
scala
大数据
上一页
23
24
25
26
27
28
29
30
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他