E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
---SparkCore
[spark streaming] DStream 和 DStreamGraph 解析
看sparkstreaming源码解析之前最好先了解
sparkcore
的内容。前言SparkStreaming是基于
SparkCore
将流式计算分解成一系列的小批处理任务来执行。
BIGUFO
·
2020-07-02 17:01
spark、hadoop大数据计算面试题汇总
hive内部表和外部表的区别Spark相关试题
SparkCore
面试篇01随着Spark技术在企业中应用越来越广泛,Spark成为大数据开发必须掌握的技能。希望能给大家带来帮助。Spar
灰二和杉菜
·
2020-07-02 15:58
Spark Streaming开发入门——WordCount(Java&Scala)
org.apache.sparkspark-streaming_2.101.6.03、Sparkstreaming基于
SparkCore
进行计算,需要注意事项:1.local模式的话,local后必须为大于等于
唐予之_
·
2020-07-02 10:29
大数据
-----Spark
-----Streaming
==通过案例对SparkStreaming透彻理解三板斧之二
通过案例对SparkStreaming透彻理解三板斧之二-http://www.jianshu.com/p/c59fa2ad7380DStream就是SparkStreaming的核心,就想
SparkCore
葡萄喃喃呓语
·
2020-07-02 00:08
2019年新年计划
,万物更新,以下是我的新年目标:一、主要:学习目标:在不准备的情况下能讲清楚每个组件的原理架构、优化方案(知道优劣才懂取舍),并操作熟练(hdfs、yarn、mapreduce、hbase、hive、
sparkcore
吾芯向Young
·
2020-07-01 06:29
规划类
Spark基本架构及运行原理
Spark软件栈
SparkCore
:包含Spark的基本功能,包含任务调度,内存管理,容错机制等,内部定义了RDDs(弹性分布式数据集),提供了很多APIs来创建和操作这些RDDs。
zxc123e
·
2020-06-30 20:51
Spark
Spark复习 Day01:
SparkCore
(一)
Spark复习Day011.Driver驱动器----------------------------------------------------执行开发程序的Main方法的进程-创建SparkContext、RDD、转换和行动-主要职责:1.将用户代码转化成job2.跟踪Executor的运行状况3.为执行器节点调度任务4.UI展示运行状况2.Executor执行器-------------
葛红富
·
2020-06-29 23:15
大数据
Spark
Spark复习 Day02:
SparkCore
(二)
Spark复习Day02:
SparkCore
1.RDD的依赖关系------------------------------------------------每个RDD都会将一系列的血统关系保存下来,
葛红富
·
2020-06-29 23:15
大数据
Spark
Spark Streaming 不同Batch任务可以并行计算么?
关于SparkStreaming中的任务有如下几个概念:BatchJobStageTask其实Stage,Task都是
SparkCore
里就有的概念,Job在Streaming和
SparkCore
里的概念则是不一致的
祝威廉
·
2020-06-29 22:07
Spark深入解析(十八):
SparkCore
之扩展之RDD相关概念关系
目录RDD相关概念关系RDD相关概念关系 输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入分片,称为InputSplit,注意InputSplit不能跨越文件。随后将为这些输入分片生成具体的Task。InputSplit与Task
老王的小知识
·
2020-06-29 22:36
【大数据】Spark
Spark深入解析(十六):
SparkCore
之数据读取与保存
目录文件类数据读取与保存Text文件Json文件Sequence文件对象文件文件系统类数据读取与保存HDFSMySQL数据库连接HBase数据库 Spark的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统。文件格式分为:Text文件、Json文件、Csv文件、Sequence文件以及Object文件;文件系统分为:本地文件系统、HDFS、HBASE以及数据库。文件类数据读取与保存
老王的小知识
·
2020-06-29 22:36
【大数据】Spark
Spark深入解析(十七):
SparkCore
之RDD编程进阶
目录累加器系统累加器自定义累加器广播变量(调优策略)累加器 累加器用来对信息进行聚合,通常在向Spark传递函数时,比如使用map()函数或者用filter()传条件时,可以使用驱动器程序中定义的变量,但是集群中运行的每个任务都会得到这些变量的一份新的副本,更新这些副本的值也不会影响驱动器中的对应变量。如果我们想实现所有分片处理时更新共享变量的功能,那么累加器可以实现我们想要的效果。系统累加器
老王的小知识
·
2020-06-29 22:04
【大数据】Spark
Spark深入解析(八):
SparkCore
之RDD的转换-Value类型
目录map(func)案例mapPartitions(func)案例mapPartitionsWithIndex(func)案例flatMap(func)案例==map()和mapPartition()的区别==glom案例groupBy(func)案例filter(func)案例sample(withReplacement,fraction,seed)案例distinct([numTasks])
老王的小知识
·
2020-06-29 22:04
【大数据】Spark
Spark深入解析(九):
SparkCore
之RDD的转换-双Value类型
目录union(otherDataset)案例subtract(otherDataset)案例intersection(otherDataset)案例cartesian(otherDataset)案例zip(otherDataset)案例union(otherDataset)案例作用:对源RDD和参数RDD求并集后返回一个新的RDD需求:创建两个RDD,求并集(1)创建第一个RDDscala>va
老王的小知识
·
2020-06-29 22:04
【大数据】Spark
Spark实验之环境搭建
三、实验内容Spark架构
SparkCore
:包含Spark的基本功能;尤其是定义RDD的API、操作以及这两者上的动作。
敲代码去
·
2020-06-29 18:34
Spark
fastspark | 用
SparkCore
和SparkSQL两种方式实现各省份广告TopN统计
内容本文讲述使用
SparkCore
和SparkSQL实现每个省份点击量最多的前三个广告id,测试数据如下省份id广告id110011001100111211011112110211021103111211121101111221002121210121212104212121112104210321112121210431213112311231213100SparkCoreimportorg.a
pomelorange
·
2020-06-29 18:20
大数据
Spark
大数据技术之Spark基础解析
1.2Spark内置模块
SparkCore
:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系
博仔的春天
·
2020-06-29 11:17
大数据Spark学习
SparkCore
SparkCore
========================================MapReduce分布式计算框架缺点:-1.执行速度慢IO瓶颈:磁盘IO、网络IOshuffle的机制:
weixin_40652340
·
2020-06-29 00:22
大数据
【Python3实战Spark大数据分析及调度】第9章 Spark Streaming
SparkStreaming概述SparkStreaming是
SparkCore
的扩展,能够水平扩展,高吞吐量,有容错机制的进行对实时数据进行流处理。
Melo丶
·
2020-06-28 21:17
spark
Spark的介绍:前世今生
Spark包含了大数据领域常见的各种计算框架:比如
SparkCore
用于离线计算,SparkSQL用于交互式查询,
weixin_33724570
·
2020-06-28 04:03
spark-概念
运行环境基本概念Spark生态圈以
SparkCore
为核心,从HDFS、AmazonS3和HBase等持久层读取数据,以MESS、YARN和自身携带的Standalone为资源管理器调度Job完成Spark
双斜杠少年
·
2020-06-27 03:27
5.5
spark
Spark-core之RDD核心概念
一、Spark包括什么spark的核心是
SparkCore
,其中上面的SparkSql对接的是Hive等结构化查询,SparkStreaming是对接的流式计算,后面的那两个也是主要用在科学任务中,但是他们的基础都是
student__software
·
2020-06-26 15:15
Spark
Spark>简答题
文章目录Spark1、什么是Spark2、Spark特点3、Spark运行模式4、Spark编写代码
SparkCore
1、什么是RDD2、RDD的主要属性3、RDD的算子分为两类:4、Rdd数据持久化什么作用
千千匿迹
·
2020-06-26 03:35
Spark
Spark
SparkCore
>RDD容错机制Checkpoint
文章目录引入代码演示查看结果:总结引入持久化的局限持久化/缓存可以把数据放在内存中,虽然是快速的,但是也是最不可靠的;也可以把数据放在磁盘上,也不是完全可靠的!例如磁盘会损坏等。问题解决Checkpoint的产生就是为了更加可靠的数据持久化,在Checkpoint的时候一般把数据放在在HDFS上,这就天然的借助了HDFS天生的高容错、高可靠来实现数据最大程度上的安全,实现了RDD的容错和高可用使用
千千匿迹
·
2020-06-26 03:35
SparkCore
基于Spark的机器学习实践 (二) - 初识MLlib
1MLlib概述1.1MLlib介绍◆是基于
Sparkcore
的机器学习库,具有Spark的优点◆底层计算经过优化,比常规编码效率往往要高◆实现了多种机器学习算法,可以进行模型训练及预测1.2SparkMLlib
公众号:JavaEdge
·
2020-06-25 07:23
机器学习
基于Spark的机器学习实践 (二) - 初识MLlib
1MLlib概述1.1MLlib介绍◆是基于
Sparkcore
的机器学习库,具有Spark的优点◆底层计算经过优化,比常规编码效率往往要高◆实现了多种机器学习算法,可以进行模型训练及预测1.2SparkMLlib
JavaEdge
·
2020-06-24 18:08
Hadoop学习路线
Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)机器学习(R,mahout)Storm(Storm,kafka,redis)Spark(scala,spark,
sparkcore
jiang_hadoop
·
2020-06-23 21:11
Hadoop从入门到精通
大数据学习路线
94、Spark Streaming之与Spark SQL结合使用之top3热门商品实时统计案例实战
与SparkSQL结合使用SparkStreaming最强大的地方在于,可以与
SparkCore
、SparkSQL整合使用,之前已经通过transform、foreachRDD等算子看到,如何将DStream
ZFH__ZJ
·
2020-06-23 14:18
[flow]Kafka+Spark Streaming+Redis实时计算整合
://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice2/关于SparkSteamingSparkStreaming模块是对于
SparkCore
葡萄喃喃呓语
·
2020-06-23 14:48
大数据学习笔记之Spark(二):
SparkCore
应用解析
文章目录小笔记第1章RDD概念番外篇RDD基础RDD的创建RDD的操作1.1RDD为什么会产生1.2RDD概述1.2.1什么是RDD1.2.2RDD的属性1.3RDD弹性1.4RDD特点1.4.1分区1.4.2只读1.4.3依赖1.4.4缓存1.4.5checkpoint第2章RDD编程2.1编程模型2.2创建RDD2.3RDD编程2.3.1TransformationmapfilterflatM
Leesin Dong
·
2020-06-23 03:46
Big
Data
Cloud
Technology❤️
#
BigData
------
Spark
Spark系列课程-0020Spark RDD图例讲解
我们从这节课开始,讲Spark的内核,英文叫做
SparkCore
,在讲
SparkCore
之前我们先讲一个重要的概念,RDD,image.png我们Spark所有的计算,都是基于RDD来计算的,我们所有的计算都是通过
Albert陈凯
·
2020-06-22 15:07
RDD的处理方法(创建、转换、行动、分区)
spark生态系统:底层是
sparkcore
,在
sparkcore
的基础上开发了其他组件,可以支持不同的应用场景。
Rachel_nana
·
2020-06-22 12:14
pyspark
大数据学习之路 --- Spark(内存计算框架)
--->Spark中有很多内容,本篇文章只讲其中的
Sparkcore
,Sparksql,Sparkstream。
Mai_Noe
·
2020-06-22 01:47
Spark2.x详解
Spark2.x1.Spark初始1.1:什么是Spark1.2:Spark与mapreduce的区别2.
SparkCore
2.1:RDD2.2:Spark任务执行原理2.3:代码流程2.4:Transformations
LssTwl
·
2020-06-22 00:47
大数据
sparkCore
SparkCore
讲解1、RDD基本概念1.1、什么是RDDRDD(ResilientDistributedDataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区
Imflash
·
2020-06-21 22:43
spark
大数据Spark和Hadoop以及区别(干货)
Spark包含了大数据领域常见的各种计算框架:比如
SparkCore
用于离线计算,SparkSQL用于交互式查询,SparkStreaming用于实时流式计算,SparkMLlib用于机器学习,SparkGraphX
BAO7988
·
2020-06-21 17:47
大数据
Spark Streaming 基本概念及操作
1SparkStreamingSparkStreamingisanextensionofthecoreSparkAPI(
sparkcore
的拓展)thatenablesscalable(高可用),high-throughput
wong小尧
·
2020-06-21 16:20
Spark Streaming
具备容错机制的实时流数据的处理•支持多种数据源获取数据:•SparkStreaming接收Kafka、Flume、HDFS等各种来源的实时输入数据,进行处理后,处理结构保存在HDFS、DataBase等各种地方
SparkCore
Coding Now
·
2020-06-21 06:01
大数据
必看!Spark 进阶之路之「SparkSQL」入门概述 | 博文精选
作者|Alice菌责编|Carol来源|CSDN博客封图|CSDN付费下载于视觉中国在之前的文章中,我们已经完成了对于Spark核心
SparkCore
的详细介绍。
CSDN云计算
·
2020-06-20 22:08
WordCount
sparkCore
:算子实现:objectWordCount{defmain(args:Array[String]):Unit={//创建valconfig=newSparkConf().setMaster
USTC_IT
·
2020-05-18 10:41
Spark从入门到精通33:Spark Streaming:大数据实时计算介绍
它的底层,其实,也是基于我们之前讲解的
SparkCore
的。基本的计算模型,还是基于内存的大数据实时计算模型。而且,它的底层的组件或者叫做概念,其实还是最核心的RDD。
勇于自信
·
2020-04-14 22:33
spark从入门到放弃五十二:Spark Streaming(12)结合spark Sql
文章地址:http://www.haha174.top/article/details/2536271.简介SparkStreaming强大的地方在于,可以于
sparkcore
和sparksql整合使用
意浅离殇
·
2020-04-10 13:34
Spark内核流程概要
因此,对于
SparkCore
了解不够详细的读者可以先阅读之前的这篇
liuzx32
·
2020-04-08 07:34
1. 通过案例对SparkStreaming 透彻理解三板斧之一:解密SparkStreaming另类实验
SparkStreaming很像是基于
SparkCore
之上的一个应用程序。不像其他子框架,
milkfan
·
2020-04-07 01:27
Spark组件简介
Spark组件
SparkCore
:包含Spark基本功能,包括任务调度,内存管理,容错机制等内部定义了RDDs(弹性分布式数据集)提供了许多APIs来创建和操作这些RDDs为其他组件提供底层服务SparkSQLSpark
小透明苞谷
·
2020-04-06 22:18
Spark Streaming - Receiver启动流程
在SparkStreaming整个架构体系里面,数据接收其实最为关键的一个流程,在数据接收完之后,后面的数据处理上面就是复用
SparkCore
的数据处理架构(包括BlockManager来管理数据),之后就是
regrecall
·
2020-04-06 22:36
Spark从入门到精通1:spark概述
Spark包含了大数据领域常见的各种计算框架:比如
SparkCore
用于离线计算,SparkSQL用于交互式查询,SparkStreaming用于实时流式计算,SparkMLlib用于机器学习,SparkGraphX
勇于自信
·
2020-04-03 16:55
Spark Sql 源码剖析(一):sql 执行的主要流程
本文基于Spark2.1,其他版本实现可能会有所不同之前写过不少
SparkCore
、SparkStreaming相关的文章,但使用更广泛的SparkSql倒是极少,恰好最近工作中使用到了,便开始研读相关的源码以及写相应的文章
牛肉圆粉不加葱
·
2020-03-31 20:06
2. 通过案例对透彻理解三板斧之二:解密SparkStreaming运行机制和架构进阶之运行机制和架构
Sparkcore
上面有4个流行的框架:SparkSQL、流计算、机器学习、图计算。从框架入手可以更清晰地了解
SparkCore
的内容。
milkfan
·
2020-03-31 19:11
Spark介绍及搭建
Spark提供了大数据处理的一站式解决方案,以
SparkCore
为基础推出了SparkSQL、SparkStreaming、MLlib、GraphX、SparkR等组件。
零度沸腾_yjz
·
2020-03-31 04:31
上一页
7
8
9
10
11
12
13
14
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他