E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
RDD的处理方法(创建、转换、行动、分区)
sparksql
支持sql查询,sparkstreaming可以支持流计算,sparkmLlib支持机器学习等。rdd编程是指sparkcore(底层)的编程。为什么叫rdd编程?
Rachel_nana
·
2020-06-22 12:14
pyspark
Spark大数据处理系列之Machine Learning
在前面的《Spark大数据处理》系列文章,介绍ApacheSpark框架,介绍如何使用
SparkSQL
库的SQL接口去访问数据,使用SparkStreaming进行实时流式数据处理和分析。
IT资讯科技
·
2020-06-22 11:07
IT资讯
人工智能
互联网科技
大数据hadoop学习
医疗Presto和GreenPlum选型测试报告
数据尽可能模拟现场,环境亲手搭建,测试结果真实有效,转载请注明版权所有—作者:周源(网名源神)医疗Presto和GreenPlum选型测试报告测试背景本次测试针对现有Oracle(12c)、Hive(3.1.0)、
SparkSQL
源神
·
2020-06-22 10:13
Presto
Spark2.2(五)
SparkSQL
读写Hive
IDEA中使用
SparkSQL
读写Hive添加依赖libraryDependencies++=Seq("org.apache.spark"%%"spark-core"%"2.2.0","org.apache.spark
H_w
·
2020-06-22 08:30
Spark
Ranger、LLAP管理
SparkSQL
权限配置(hiveserver2)
转载:https://zhuanlan.zhihu.com/p/35647068概述之前一直使用ranger管理hive的用户权限,现在系统要集成
SparkSQL
(thriftserver),但是在ranger
W609392362
·
2020-06-22 07:52
hadoop
spark
ranger
Spark-使用总结-1
spark.sql.shuffle.partitions:对于
SparkSQL
中的shuffle类语句,比如groupby、join等,该参数代表了shufflereadtask的并行度,该
Snail_Moved_Slowly
·
2020-06-22 05:31
大数据
Spark工作原理入门
Spark工作原理入门文章目录Spark工作原理入门1.功能概要基本描述运用场景实际使用2.模块组成HDFSMLlibMesosTachyonGraphX
SparkSQL
SparkStreaming3.
Simple_sir_forever
·
2020-06-22 05:19
大数据实战项目之新闻话题分析 学习笔记(十)
文章目录第21章:
SparkSQL
快速离线数据分析
SparkSQL
概述及特点
SparkSQL
服务架构
SparkSQL
与Hive集成(Spark-Shell)
SparkSQL
与Hive集成(Spark-sql
爱学习的Neehong
·
2020-06-22 05:50
技术学习
Spark 3.0发布啦,改进SQL,弃Python 2,更好的兼容ANSI SQL,性能大幅提升
Spark3.0中的
SparkSQL
是这个版本中
老夫编程说
·
2020-06-22 04:00
spark
ansi
sql
以源码为基础,结实际案例,深入分析Spark核心原理和生态圈BDAS
主要内容包括Spark生态圈、实战环境搭建、编程模型和内部重要模块的分析,重点介绍了消息通信框架、作业调度、容错执行、监控管理、存储管理以及运行框架,同时还介绍了Spark生态圈相关组件,包括了
SparkSQL
哆啦小迁
·
2020-06-22 03:42
java
数据库
微服务
python
java
大数据
分布式
spark
Spark Streaming接收kafka数据,输出到HBase
需求Kafka+SparkStreaming+
SparkSQL
+HBase输出TOP5的排名结果排名作为Rowkey,word和count作为Column实现创建kafka生产者模拟随机生产数据objectproducer
Nougats
·
2020-06-22 02:25
spark
sparksql
按mysql实例+黑名单抽取数据,并生成hive的建表和视图的语句写入hdfs
最近做了一个小功能,在这记录一下:一部分maxwell+fink+黑名单实时抽取mysql的binlog数据,落地到hive表为了弥补历史数据未进行变更的问题,让我写了一套离线抽数据的程序实现的功能点一配置信息mysql.properties二pom文件三解析mysql.properties文件四加载对应mysql实例下的所有表五读取黑名单中的数据库和表,库和表都按,分隔六按照mysql实例查询出
Master_slaves
·
2020-06-22 01:34
大数据
数据仓库
大数据学习之路 --- Spark(内存计算框架)
--->Spark中有很多内容,本篇文章只讲其中的Sparkcore,
Sparksql
,Sparkstream。
Mai_Noe
·
2020-06-22 01:47
SparkSQL
---Spark计算引擎模块
目录:一、
SparkSQL
简介二、
SparkSQL
特征1.易整合2.统一的数据访问方式3.兼容Hive4.标准的数据连接三、RDD、DataFrame和DataSet1.RDD2.DataFrame2.1
孤独の√ 3
·
2020-06-21 23:27
大数据
#
spark
Spark集成Hive和Hbase实现离线数据分析
目录前言一、Spark+Hive1.配置2.测试二、Spark+Hbase1.配置2.测试前言
SparkSQL
是Spark处理结构化数据的模块。
IT142546355
·
2020-06-21 22:08
Hadoop专栏
大数据
SparkSQL
下Parquet中PushDown的实现
SparkSQL
实现了PushDown,在Parquet文件中实现PushDown具有很重要的意义。PushDown是一种SQL优化方式,通常用在查询。
囧芝麻
·
2020-06-21 20:23
SparkSQL
PySpark SQL 加载使用 tab 键分隔的文件
Py
SparkSQL
加载使用tab键分隔的文件数据文件准备为了方便后面的实验,先生成数据文件data.txt,Python代码如下:data=['x1\t1\t2','x2\t2\t2','x3\t3\
珍妮的选择
·
2020-06-21 20:46
Spark
【Spark】一起了解一下大数据必不可少的Spark吧!
特点Spark架构模块主要架构模块SparkCore
SparkSQL
SparkStreamingMLlibGraghX集群管理器主要运行角色MasterWorkerExecutorTaskApplicationJobclientDriverSpark
sqlBoy_
·
2020-06-21 18:17
Spark
spark
大数据
分布式
大数据查询分析引擎比较
1、常见方案比较首先,Hive/
SparkSQL
在数据仓库的领域应用是比较广泛的,但是因为查询时延很难能够满足毫秒到秒级的要求,同时因为是离线计算,数据时效性也比较差。
BabyFish13
·
2020-06-21 17:57
BigData
大数据平台架构
大数据Spark和Hadoop以及区别(干货)
Spark包含了大数据领域常见的各种计算框架:比如SparkCore用于离线计算,
SparkSQL
用于交互式查询,SparkStreaming用于实时流式计算,SparkMLlib用于机器学习,SparkGraphX
BAO7988
·
2020-06-21 17:47
大数据
Apache Spark大数据分析入门(一)教程
全文共包括四个部分:第一部分:Spark入门,介绍如何使用Shell及RDDs第二部分:介绍
SparkSQL
、Dataframes及如何结合Spark与Cassandra一起使用第三部分:介绍Spar
BAO7988
·
2020-06-21 17:47
大数据
六(2)、sparkstreaming代码出现的一些情况分析
作业流程:mysqlbinlog——(steamsets)——>kafka——(sparkstreaming、
sparksql
)——>redis除了把结果数据放redis以外,还有把验证数据放redis
Angular_need
·
2020-06-21 16:05
spark
sparksql
函数-2
字段映射处理,两种方式:str_to_map,casewhenselectcasesubstr(idcard,1,2)when'11'then'北京'when'33'then'浙江'when'46'then'海南'when'65'then'新疆'when'12'then'天津'when'34'then'安徽'when'50'then'重庆'when'71'then'台湾'when'13'then'
我家小宝_朱朱
·
2020-06-21 15:25
spark
Flume+Spark+Hive+Spark SQL离线分析系统
当然Spark不光是可以做离线计算,还提供了许多功能强大的组件,比如说,SparkStreaming组件做实时计算,和Kafka等消息系统也有很好的兼容性;
SparkSql
,可以让用户通过标准SQL语句操作从不同的数据源中过来的结构化数据
咕噜大大
·
2020-06-21 15:49
大数据技术
spark教程
读写parquet格式文件的几种方式
摘要本文将介绍常用parquet文件读写的几种方式1.用spark的hadoopFileapi读取hive中的parquet格式文件2.用
sparkSql
读写hive中的parquet格式3.用新旧MapReduce
woloqun
·
2020-06-21 14:13
hadoop
spark
开源OLAP引擎综评:HAWQ、Presto、ClickHouse
大家都知道开源大数据组件种类众多,其中开源OLAP引擎包含Hive、
SparkSQL
、Presto、HAWQ、ClickHouse、Impala、Kylin等。
百分点大数据团队
·
2020-06-21 14:00
开源
olap
引擎
SparkSQL
大数据实战:揭开Join的神秘面纱
Join操作是数据库和大数据计算中的高级特性,大多数场景都需要进行复杂的Join操作,本文从原理层面介绍了
SparkSQL
支持的常见Join算法及其适用场景。
weixin_34306446
·
2020-06-21 11:01
Spark SQL 分析 Imooc 访问日志
更多内容可访问我的个人博客:laijianfeng.org关注【小旋锋】微信公众号,及时接收博文推送原文地址:
SparkSQL
分析Imooc访问日志前言项目地址
SparkSQL
分析Imooc访问日志环境说明
weixin_33816946
·
2020-06-21 10:58
新闻实时分析系统 SQL快速离线数据分析
1.
SparkSQL
概述1)
SparkSQL
是Spark核心功能的一部分,是在2014年4月份Spark1.0版本时发布的。
weixin_30730151
·
2020-06-21 10:12
MongoDB + Spark: 完整的大数据解决方案
通用性:我们可以使用
SparkSQL
来执行常规分析,SparkStreaming来流数据处理,以及用Mlib来执行机器学习等。Java,python,scala及R语言的支持也是其通用性的表现之一。
吉阿
·
2020-06-21 08:15
NoSQL(mongodb)
大数据不就是写SQL吗?好像是的。
SparkSQL
、Hive、Phoen
简说Python
·
2020-06-21 05:23
大数据 SQL Boy 脱坑指南
大数据行业跟SQL更是有不解之缘,可谓“万物皆可SQL化”,从Hive/
SparkSQL
等最原始的最普及的SQL查询引擎,到Impala/Presto/ClickHous
简说Python
·
2020-06-21 05:23
Flink1.10集成Hive快速入门
之后出现的SQL引擎,如
SparkSQL
、Impala等,都在一定程度上提供了与Hive集成的功能,从而方便用户使用现有的数据仓库、进行作业迁移等。
jmx_bigdata
·
2020-06-21 02:44
Flink
flink
Airflow填坑 - 生产环境实战,开始时间与周期的设置
首先,介绍一下需求在大数据处理阶段,也就是数据的ETL,我们通过公司自己开发的平台,将各个业务流程模型化,模型=输入算子+数据处理算子(SQL化,底层为
sparksql
)+输出算子,类似于这种模型,代表一个个的业务
冯JK
·
2020-06-20 22:06
大数据
Spark 进阶之路之「
SparkSQL
」入门概述 | 博文精选
而今天想为为大家介绍的是
SparkSQL
的概述。什么是
SparkSQL
?
CSDN云计算
·
2020-06-20 22:08
[SQL]SparkS/Hive/HBase整合
2016/05/673.htmHive从1.1之后,支持使用Spark作为执行引擎,配置使用SparkOnYarn作为Hive的执行引擎,首先需要注意以下两个问题:Hive的版本和Spark的版本要匹配;
SparkSQL
葡萄喃喃呓语
·
2020-06-20 21:23
Apache CarbonData 2.0 开发实用系列之一:与Spark SQL集成使用
【摘要】在
SparkSQL
中使用CarbonData【准备CarbonData】在浏览器地址栏输入以下链接,点击"download"按钮下载已经准备好的CarbonDatajar包链接:https://
华为云
·
2020-06-20 20:05
技术交流
mysql
大数据
数据库
SQL
apache
DataFrame的创建&操作
SparkSQL
是Spark中的一个模块,主要用于进行结构化数据的处理。它提供的最核心的编程抽象,就是DataFrame。同时
SparkSQL
还可以作为分布式的SQL查询引擎。
hipeer
·
2020-06-20 20:58
【Spark学习笔记】 Scala DataFrame操作大全
1、创建DataFrame本文所使用的DataFrame是通过读取mysql数据库获得的,代码如下:valspark=SparkSession.builder().appName("
SparkSQL
basicexample
不可能打工
·
2020-06-16 11:39
Spark_
SparkSQL
中定义 UDTF
我们看下如何在
SparkSQL
中定义并使用UDTF。Basespark2.2.0BaseHive2.1.1历史方案Spark1.
高达一号
·
2020-05-31 16:52
Spark
Spark SQL 教程
一、什么是
SparkSQL
SparkSQL
是Spark用来处理结构化数据的一个模块,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为分布式SQL查询引擎。
weare_b646
·
2020-05-29 12:48
Spark SQL源码解析(五)SparkPlan准备和执行阶段
SparkSQL
原理解析前言:
SparkSQL
源码剖析(一)SQL解析框架Catalyst流程概述
SparkSQL
源码解析(二)Antlr4解析Sql并生成树
SparkSQL
源码解析(三)Analysis
zzzzMing
·
2020-05-27 18:00
Hive UDF使用资源文件及动态更新方案
Hive0.13版本开始支持自定义永久函数(PermanentFunction),可以将函数注册到HiveMetastore,通过Hive/Beeline/
SparkSQL
可以直接引用,不需要类似于临
demigelemiao
·
2020-05-26 13:00
Spark SQL ThriftServer
SparkSQL
ThriftServer启动命令默认情况下,Spark日志目录SPARK_LOG_DIR指向SPARK_HOME/logs,如因权限访问控制,可以通过显示设置环境变量SPARK_LOG_DIR
demigelemiao
·
2020-05-26 13:00
选择适合自己的 OLAP 引擎,干货
摘要:本文主要介绍了主流开源的OLAP引擎:Hive、
Sparksql
、Presto、Kylin、Impala、Druid、Clickhouse等,逐一介绍了每一款开源OLAP引擎,包含架构、优缺点、使用场景等
程序员小陶
·
2020-05-20 10:50
大数据进击之路
Spark SQL实战:使用Spark SQL 连接hive ,将统计结果存储到 mysql中
1.需求:使用
SparkSQL
连接hive,读取数据,将统计结果存储到mysql中2.将写好的代码打包上传的集群,然后提交spark运行,前提是hive,HDFS已经启动3.代码:(1)pom.xmlorg.apache.sparkspark-core
Movle
·
2020-05-18 19:00
Spark SQL:基础
目录一.
SparkSQL
简介二.
SparkSQL
的特点三.基本概念:表:(Datasets或DataFrames)1.表=表结构+数据2.DataFrame3.Datasets四.创建DataFrames1
Movle
·
2020-05-18 16:06
Spark SQL源码解析(四)Optimization和Physical Planning阶段解析
SparkSQL
原理解析前言:
SparkSQL
源码剖析(一)SQL解析框架Catalyst流程概述
SparkSQL
源码解析(二)Antlr4解析Sql并生成树
SparkSQL
源码解析(三)Analysis
zzzzMing
·
2020-05-14 08:00
【赵强老师】在Spark SQL中读取JSON文件
SparkSQL
是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。为什么要学习
SparkSQL
?
collen7788
·
2020-05-11 15:08
大数据
Spark
SQL
数据仓库的ETL、OLAP和BI应用
但如今随着开源分布式数据仓库工具如HadoopHive,
SparkSQL
的兴起,开发人员往往将建模和实现分离。
帆软商业智能技术
·
2020-05-06 10:22
数据仓库
数据库
可视化
大数据
分布式
上一页
54
55
56
57
58
59
60
61
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他