---SparkCore 第11页

[spark streaming] DStream 和 DStreamGraph 解析

看sparkstreaming源码解析之前最好先了解sparkcore的内容。前言SparkStreaming是基于SparkCore将流式计算分解成一系列的小批处理任务来执行。

BIGUFO·2020-07-02 17:01

spark、hadoop大数据计算面试题汇总

hive内部表和外部表的区别Spark相关试题SparkCore面试篇01随着Spark技术在企业中应用越来越广泛，Spark成为大数据开发必须掌握的技能。希望能给大家带来帮助。Spar

灰二和杉菜·2020-07-02 15:58

Spark Streaming开发入门——WordCount（Java&Scala）

org.apache.sparkspark-streaming_2.101.6.03、Sparkstreaming基于SparkCore进行计算，需要注意事项：1.local模式的话,local后必须为大于等于

唐予之_·2020-07-02 10:29

==通过案例对SparkStreaming透彻理解三板斧之二

通过案例对SparkStreaming透彻理解三板斧之二-http://www.jianshu.com/p/c59fa2ad7380DStream就是SparkStreaming的核心，就想SparkCore

葡萄喃喃呓语·2020-07-02 00:08

2019年新年计划

，万物更新，以下是我的新年目标：一、主要：学习目标：在不准备的情况下能讲清楚每个组件的原理架构、优化方案(知道优劣才懂取舍)，并操作熟练(hdfs、yarn、mapreduce、hbase、hive、sparkcore

吾芯向Young·2020-07-01 06:29

Spark基本架构及运行原理

Spark软件栈SparkCore:包含Spark的基本功能，包含任务调度，内存管理，容错机制等，内部定义了RDDs(弹性分布式数据集)，提供了很多APIs来创建和操作这些RDDs。

zxc123e·2020-06-30 20:51

Spark复习 Day01：SparkCore(一)

Spark复习Day011.Driver驱动器----------------------------------------------------执行开发程序的Main方法的进程-创建SparkContext、RDD、转换和行动-主要职责：1.将用户代码转化成job2.跟踪Executor的运行状况3.为执行器节点调度任务4.UI展示运行状况2.Executor执行器-------------

葛红富·2020-06-29 23:15

Spark复习 Day02：SparkCore(二)

Spark复习Day02:SparkCore1.RDD的依赖关系------------------------------------------------每个RDD都会将一系列的血统关系保存下来，

葛红富·2020-06-29 23:15

Spark Streaming 不同Batch任务可以并行计算么？

关于SparkStreaming中的任务有如下几个概念：BatchJobStageTask其实Stage,Task都是SparkCore里就有的概念，Job在Streaming和SparkCore里的概念则是不一致的

祝威廉·2020-06-29 22:07

Spark深入解析（十八）：SparkCore之扩展之RDD相关概念关系

老王的小知识·2020-06-29 22:36

Spark深入解析（十六）：SparkCore之数据读取与保存

目录文件类数据读取与保存Text文件Json文件Sequence文件对象文件文件系统类数据读取与保存HDFSMySQL数据库连接HBase数据库 Spark的数据读取及数据保存可以从两个维度来作区分：文件格式以及文件系统。文件格式分为：Text文件、Json文件、Csv文件、Sequence文件以及Object文件；文件系统分为：本地文件系统、HDFS、HBASE以及数据库。文件类数据读取与保存

老王的小知识·2020-06-29 22:36

Spark深入解析（十七）：SparkCore之RDD编程进阶

目录累加器系统累加器自定义累加器广播变量（调优策略）累加器累加器用来对信息进行聚合，通常在向Spark传递函数时，比如使用map()函数或者用filter()传条件时，可以使用驱动器程序中定义的变量，但是集群中运行的每个任务都会得到这些变量的一份新的副本，更新这些副本的值也不会影响驱动器中的对应变量。如果我们想实现所有分片处理时更新共享变量的功能，那么累加器可以实现我们想要的效果。系统累加器

老王的小知识·2020-06-29 22:04

Spark深入解析（八）：SparkCore之RDD的转换-Value类型

目录map(func)案例mapPartitions(func)案例mapPartitionsWithIndex(func)案例flatMap(func)案例==map()和mapPartition()的区别==glom案例groupBy(func)案例filter(func)案例sample(withReplacement,fraction,seed)案例distinct([numTasks])

老王的小知识·2020-06-29 22:04

Spark深入解析（九）：SparkCore之RDD的转换-双Value类型

目录union(otherDataset)案例subtract(otherDataset)案例intersection(otherDataset)案例cartesian(otherDataset)案例zip(otherDataset)案例union(otherDataset)案例作用：对源RDD和参数RDD求并集后返回一个新的RDD需求：创建两个RDD，求并集（1）创建第一个RDDscala>va

老王的小知识·2020-06-29 22:04

Spark实验之环境搭建

三、实验内容Spark架构SparkCore：包含Spark的基本功能；尤其是定义RDD的API、操作以及这两者上的动作。

敲代码去·2020-06-29 18:34

fastspark | 用SparkCore和SparkSQL两种方式实现各省份广告TopN统计

内容本文讲述使用SparkCore和SparkSQL实现每个省份点击量最多的前三个广告id，测试数据如下省份id广告id110011001100111211011112110211021103111211121101111221002121210121212104212121112104210321112121210431213112311231213100SparkCoreimportorg.a

pomelorange·2020-06-29 18:20

大数据技术之Spark基础解析

1.2Spark内置模块SparkCore：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系

博仔的春天·2020-06-29 11:17

SparkCore

SparkCore========================================MapReduce分布式计算框架缺点：-1.执行速度慢IO瓶颈：磁盘IO、网络IOshuffle的机制：

weixin_40652340·2020-06-29 00:22

【Python3实战Spark大数据分析及调度】第9章 Spark Streaming

SparkStreaming概述SparkStreaming是SparkCore的扩展，能够水平扩展，高吞吐量，有容错机制的进行对实时数据进行流处理。

Melo丶·2020-06-28 21:17

Spark的介绍：前世今生

Spark包含了大数据领域常见的各种计算框架：比如SparkCore用于离线计算，SparkSQL用于交互式查询，

weixin_33724570·2020-06-28 04:03

spark－概念

运行环境基本概念Spark生态圈以SparkCore为核心，从HDFS、AmazonS3和HBase等持久层读取数据，以MESS、YARN和自身携带的Standalone为资源管理器调度Job完成Spark

双斜杠少年·2020-06-27 03:27

Spark-core之RDD核心概念

一、Spark包括什么spark的核心是SparkCore，其中上面的SparkSql对接的是Hive等结构化查询，SparkStreaming是对接的流式计算，后面的那两个也是主要用在科学任务中，但是他们的基础都是

student__software·2020-06-26 15:15

Spark>简答题

文章目录Spark1、什么是Spark2、Spark特点3、Spark运行模式4、Spark编写代码SparkCore1、什么是RDD2、RDD的主要属性3、RDD的算子分为两类:4、Rdd数据持久化什么作用

千千匿迹·2020-06-26 03:35

SparkCore>RDD容错机制Checkpoint

文章目录引入代码演示查看结果:总结引入持久化的局限持久化/缓存可以把数据放在内存中，虽然是快速的，但是也是最不可靠的；也可以把数据放在磁盘上，也不是完全可靠的！例如磁盘会损坏等。问题解决Checkpoint的产生就是为了更加可靠的数据持久化，在Checkpoint的时候一般把数据放在在HDFS上，这就天然的借助了HDFS天生的高容错、高可靠来实现数据最大程度上的安全，实现了RDD的容错和高可用使用

千千匿迹·2020-06-26 03:35

基于Spark的机器学习实践 (二) - 初识MLlib

1MLlib概述1.1MLlib介绍◆是基于Sparkcore的机器学习库,具有Spark的优点◆底层计算经过优化,比常规编码效率往往要高◆实现了多种机器学习算法,可以进行模型训练及预测1.2SparkMLlib

公众号:JavaEdge·2020-06-25 07:23

基于Spark的机器学习实践 (二) - 初识MLlib

1MLlib概述1.1MLlib介绍◆是基于Sparkcore的机器学习库,具有Spark的优点◆底层计算经过优化,比常规编码效率往往要高◆实现了多种机器学习算法,可以进行模型训练及预测1.2SparkMLlib

JavaEdge·2020-06-24 18:08

Hadoop学习路线

Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)机器学习(R,mahout)Storm(Storm,kafka,redis)Spark(scala,spark,sparkcore

jiang_hadoop·2020-06-23 21:11

94、Spark Streaming之与Spark SQL结合使用之top3热门商品实时统计案例实战

与SparkSQL结合使用SparkStreaming最强大的地方在于，可以与SparkCore、SparkSQL整合使用，之前已经通过transform、foreachRDD等算子看到，如何将DStream

ZFH__ZJ·2020-06-23 14:18

[flow]Kafka+Spark Streaming+Redis实时计算整合

://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice2/关于SparkSteamingSparkStreaming模块是对于SparkCore

葡萄喃喃呓语·2020-06-23 14:48

大数据学习笔记之Spark（二）：SparkCore应用解析

文章目录小笔记第1章RDD概念番外篇RDD基础RDD的创建RDD的操作1.1RDD为什么会产生1.2RDD概述1.2.1什么是RDD1.2.2RDD的属性1.3RDD弹性1.4RDD特点1.4.1分区1.4.2只读1.4.3依赖1.4.4缓存1.4.5checkpoint第2章RDD编程2.1编程模型2.2创建RDD2.3RDD编程2.3.1TransformationmapfilterflatM

Leesin Dong·2020-06-23 03:46

Spark系列课程-0020Spark RDD图例讲解

我们从这节课开始，讲Spark的内核，英文叫做SparkCore，在讲SparkCore之前我们先讲一个重要的概念，RDD，image.png我们Spark所有的计算，都是基于RDD来计算的，我们所有的计算都是通过

Albert陈凯·2020-06-22 15:07

RDD的处理方法（创建、转换、行动、分区）

spark生态系统：底层是sparkcore，在sparkcore的基础上开发了其他组件，可以支持不同的应用场景。

Rachel_nana·2020-06-22 12:14

大数据学习之路 --- Spark（内存计算框架）

--->Spark中有很多内容，本篇文章只讲其中的Sparkcore，Sparksql，Sparkstream。

Mai_Noe·2020-06-22 01:47

Spark2.x详解

Spark2.x1.Spark初始1.1:什么是Spark1.2:Spark与mapreduce的区别2.SparkCore2.1:RDD2.2:Spark任务执行原理2.3:代码流程2.4:Transformations

LssTwl·2020-06-22 00:47

sparkCore

SparkCore讲解1、RDD基本概念1.1、什么是RDDRDD（ResilientDistributedDataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区

Imflash·2020-06-21 22:43

大数据Spark和Hadoop以及区别（干货）

Spark包含了大数据领域常见的各种计算框架：比如SparkCore用于离线计算，SparkSQL用于交互式查询，SparkStreaming用于实时流式计算，SparkMLlib用于机器学习，SparkGraphX

BAO7988·2020-06-21 17:47

Spark Streaming 基本概念及操作

1SparkStreamingSparkStreamingisanextensionofthecoreSparkAPI(sparkcore的拓展)thatenablesscalable（高可用）,high-throughput

wong小尧·2020-06-21 16:20

Spark Streaming

具备容错机制的实时流数据的处理•支持多种数据源获取数据：•SparkStreaming接收Kafka、Flume、HDFS等各种来源的实时输入数据，进行处理后，处理结构保存在HDFS、DataBase等各种地方SparkCore

Coding Now·2020-06-21 06:01

必看！Spark 进阶之路之「SparkSQL」入门概述 | 博文精选

作者|Alice菌责编|Carol来源|CSDN博客封图|CSDN付费下载于视觉中国在之前的文章中，我们已经完成了对于Spark核心SparkCore的详细介绍。

CSDN云计算·2020-06-20 22:08

WordCount

sparkCore：算子实现：objectWordCount{defmain(args:Array[String]):Unit={//创建valconfig=newSparkConf().setMaster

USTC_IT·2020-05-18 10:41

Spark从入门到精通33:Spark Streaming：大数据实时计算介绍

它的底层，其实，也是基于我们之前讲解的SparkCore的。基本的计算模型，还是基于内存的大数据实时计算模型。而且，它的底层的组件或者叫做概念，其实还是最核心的RDD。

勇于自信·2020-04-14 22:33

spark从入门到放弃五十二:Spark Streaming(12)结合spark Sql

文章地址：http://www.haha174.top/article/details/2536271.简介SparkStreaming强大的地方在于，可以于sparkcore和sparksql整合使用

意浅离殇·2020-04-10 13:34

Spark内核流程概要

因此，对于SparkCore了解不够详细的读者可以先阅读之前的这篇

liuzx32·2020-04-08 07:34

1. 通过案例对SparkStreaming 透彻理解三板斧之一：解密SparkStreaming另类实验

SparkStreaming很像是基于SparkCore之上的一个应用程序。不像其他子框架，

milkfan·2020-04-07 01:27

Spark组件简介

Spark组件SparkCore：包含Spark基本功能，包括任务调度，内存管理，容错机制等内部定义了RDDs（弹性分布式数据集）提供了许多APIs来创建和操作这些RDDs为其他组件提供底层服务SparkSQLSpark

小透明苞谷·2020-04-06 22:18

Spark Streaming - Receiver启动流程

在SparkStreaming整个架构体系里面，数据接收其实最为关键的一个流程，在数据接收完之后，后面的数据处理上面就是复用SparkCore的数据处理架构(包括BlockManager来管理数据)，之后就是

regrecall·2020-04-06 22:36

Spark从入门到精通1:spark概述

Spark包含了大数据领域常见的各种计算框架：比如SparkCore用于离线计算，SparkSQL用于交互式查询，SparkStreaming用于实时流式计算，SparkMLlib用于机器学习，SparkGraphX

勇于自信·2020-04-03 16:55

Spark Sql 源码剖析（一）：sql 执行的主要流程

本文基于Spark2.1，其他版本实现可能会有所不同之前写过不少SparkCore、SparkStreaming相关的文章，但使用更广泛的SparkSql倒是极少，恰好最近工作中使用到了，便开始研读相关的源码以及写相应的文章

牛肉圆粉不加葱·2020-03-31 20:06

2. 通过案例对透彻理解三板斧之二：解密SparkStreaming运行机制和架构进阶之运行机制和架构

Sparkcore上面有4个流行的框架：SparkSQL、流计算、机器学习、图计算。从框架入手可以更清晰地了解SparkCore的内容。

milkfan·2020-03-31 19:11

Spark介绍及搭建

Spark提供了大数据处理的一站式解决方案，以SparkCore为基础推出了SparkSQL、SparkStreaming、MLlib、GraphX、SparkR等组件。

零度沸腾_yjz·2020-03-31 04:31

推荐频道

---SparkCore

[spark streaming] DStream 和 DStreamGraph 解析

spark、hadoop大数据计算面试题汇总

Spark Streaming开发入门——WordCount（Java&Scala）

==通过案例对SparkStreaming透彻理解三板斧之二

2019年新年计划

Spark基本架构及运行原理

Spark复习 Day01：SparkCore(一)

Spark复习 Day02：SparkCore(二)

Spark Streaming 不同Batch任务可以并行计算么？

Spark深入解析（十八）：SparkCore之扩展之RDD相关概念关系

Spark深入解析（十六）：SparkCore之数据读取与保存

Spark深入解析（十七）：SparkCore之RDD编程进阶

Spark深入解析（八）：SparkCore之RDD的转换-Value类型

Spark深入解析（九）：SparkCore之RDD的转换-双Value类型

Spark实验之环境搭建

fastspark | 用SparkCore和SparkSQL两种方式实现各省份广告TopN统计

大数据技术之Spark基础解析

SparkCore

【Python3实战Spark大数据分析及调度】第9章 Spark Streaming

Spark的介绍：前世今生

spark－概念

Spark-core之RDD核心概念

Spark>简答题

SparkCore>RDD容错机制Checkpoint

基于Spark的机器学习实践 (二) - 初识MLlib

基于Spark的机器学习实践 (二) - 初识MLlib

Hadoop学习路线

94、Spark Streaming之与Spark SQL结合使用之top3热门商品实时统计案例实战

[flow]Kafka+Spark Streaming+Redis实时计算整合

大数据学习笔记之Spark（二）：SparkCore应用解析

Spark系列课程-0020Spark RDD图例讲解

RDD的处理方法（创建、转换、行动、分区）

大数据学习之路 --- Spark（内存计算框架）

Spark2.x详解

sparkCore

大数据Spark和Hadoop以及区别（干货）

Spark Streaming 基本概念及操作

Spark Streaming

必看！Spark 进阶之路之「SparkSQL」入门概述 | 博文精选

WordCount

Spark从入门到精通33:Spark Streaming：大数据实时计算介绍

spark从入门到放弃五十二:Spark Streaming(12)结合spark Sql

Spark内核流程概要

1. 通过案例对SparkStreaming 透彻理解三板斧之一：解密SparkStreaming另类实验

Spark组件简介

Spark Streaming - Receiver启动流程

Spark从入门到精通1:spark概述

Spark Sql 源码剖析（一）：sql 执行的主要流程

2. 通过案例对透彻理解三板斧之二：解密SparkStreaming运行机制和架构进阶之运行机制和架构

Spark介绍及搭建