---SparkCore 第9页

scala的面向对象,继承与特质

---------------------------------------------------------------------------------------1、scala编程语言2、SparkCore

weixin_30682415·2020-08-01 03:39

scala的面向对象，类与构造器

---------------------------------------------------------------------------------------1、scala编程语言2、SparkCore

track sun·2020-08-01 03:04

Spark Core源码精读计划7 | Spark执行环境的初始化

大数据技术与架构·2020-08-01 02:42

Spark系列--SparkCore(五)RDD容错性之cache、persist、checkpoint

一、RDD容错性理解RDD的容错性：RDD可以通过血统机制来进行RDD的恢复。在RDD进行转换和动作的时候，会形成RDD的Lineage依赖链，当某一个RDD失效的时候，可以通过重新计算上游的RDD来重新生成丢失的RDD数据。但是在spark计算里面,假如计算流程DAG特别长,服务器需要将整个DAG计算完成得出结果,但是如果在这很长的计算流程中突然中间算出的数据丢失了,spark又会根据RDD的依

淡淡的倔强·2020-08-01 02:12

38 Sparkcore中的BlockManager

主要内容：1.BlockManager运行实例2.BlockManager原理流程图37中的回顾：首先讲解了Task内部具体执行的流程；然后介绍了Driver是如何对Executor处理后的Task执行的结果进行进一步的处理的。从上一讲的内容可以看出在Shuffle过程中要读写数据（即上一个Stage的数据）时需要BlockManager的参与，因此为了了解Spark中程序的运行，掌握BlockM

sinat_25306771·2020-08-01 00:42

Spark Core源码精读计划17 | 上下文清理器ContextCleaner

顾名思义，它扮演着SparkCore中垃圾收集器的角色，因此虽然我们在平时编码时甚少见到它，但它算是

run_bigdata·2020-07-31 23:47

SparkCore>RDD的持久化/缓存

文章目录引入持久化/缓存API详解代码演示总结引入在实际开发中某些RDD的计算或转换可能会比较耗费时间，如果这些RDD后续还会频繁的被使用到，那么可以将这些RDD进行持久化/缓存，这样下次再使用到的时候就不用再重新计算了，提高了程序运行的效率持久化/缓存API详解persist方法和cache方法RDD通过persist或cache方法可以将前面的计算结果缓存，但是并不是这两个方法被调用时立即缓存

千千匿迹·2020-07-31 23:33

SparkCore之行动算子:Action算子与案例,RDD中的函数传递,方法与属性的传递,RDD依赖关系,Lineage,宽依赖与窄依赖,DAG,任务的划分,RDD缓存,RDD CheckPoint

接上篇文章第2章2.3.4:SparkCore之转换算子:RDD概述属性介绍,RDD特点,RDD编程模型,RDD的创建与转换,transformation转换算子Value类型与双value类型交互,key-value

DougLeaMrConcurrency·2020-07-31 23:19

SparkStreaming的介绍及处理数据流程

介绍：流式数据处理（streamprocessing）要处理的数据就像流水一样，源源不断的产生数据，需要实时进行处理对SparkCore的高级API的封装，将流式的数据切分为小的批次batch（按照时间间隔

乔尼娜沙德星·2020-07-31 22:13

Spark core 记录-persist原数据操作

Sparkcore记录-persist原数据操作1、在同一个rdd上，做不同转换的操作时，并不会改变这个rdd上的值，也不会影响其他rdd上使用原数据的结果测试结果：2、`但是`如果有persist或caches

T-Janey·2020-07-31 15:19

【SparkCore】RDD的持久化与缓存（HDFS与内存磁盘）

目录内存或磁盘介绍持久化/缓存API详解代码存储级别总结HDFS介绍代码总结内存或磁盘介绍在实际开发中某些RDD的计算或转换可能会比较耗费时间，如果这些RDD后续还会频繁的被使用到，那么可以将这些RDD进行持久化/缓存，这样下次再使用到的时候就不用再重新计算了，提高了程序运行的效率持久化/缓存API详解persist方法和cache方法RDD通过persist或cache方法可以将前面的计算结果缓

没去过埃及的法老·2020-07-31 12:09

SparkCore之RDD依赖关系_RDD缓存_RDD CheckPoint

一RDD依赖关系1LineageRDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage（血统）记录下来，以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为，当该RDD的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区。（1）读取一个HDFS文件并将其中内容映射成一个个元组scala>valwordAndOne=sc.t

不稳定记忆·2020-07-31 11:50

SparkCore快速入门系列（5）

铁铁们，博主前段时间在做一些项目加上找工作所以到现在才更新，(__)嘻嘻……博主现在已经工作啦，后期会给你们更新一些关于数据库以及报表开发的文章哦！接下来言归正传！！！！！！文章目录第一章RDD详解1.1什么是RDD1.1.1为什么要有RDD?1.1.2RDD是什么?1.2.RDD的主要属性第二章RDD-API2.1.创建RDD2.2.RDD的方法/算子分类2.2.1分类2.2.2Transfor

KO哥·2020-07-31 11:58

Spark Streaming + Kafka + Flume + HBase

SparkStreaming模块是对于SparkCore的一个扩展，目的是为了以高吞吐量，并且容错的方式处理持续性的数据流。

liaohao05·2020-07-30 15:20

SparkCore:RDD的持久化/缓存

持久化/缓存RDD的持久化/缓存持久化/缓存API详解代码演示总结RDD的持久化/缓存引入：在实际开发中某些RDD的计算或转换可能会比较耗费时间，如果这些RDD后续还会频繁的被使用到，那么可以将这些RDD进行持久化/缓存，这样下次再使用到的时候就不用再重新计算了，提高了程序运行的效率持久化/缓存API详解Persist方法和Cache方法RDD通过persist或cache方法可以将前面的计算结果

真情流露哦呦·2020-07-30 12:35

Spark Core源码精读计划20 | RDD检查点的具体实现

RDDCheckpointDataReliableRDDCheckpointData检查点RDDCheckpointRDDReliableCheckpointRDD总结前言RDD检查点（Checkpoint）是SparkCore

run_bigdata·2020-07-30 12:00

sparkCore之sparkRDD Persistence(sparkRDD持久化操作)

一、什么是持久化操作持久化操作就是以某种方式将一些数据或结果存储起来二、spark中为什么要有rdd的持久化的操作主要原因在于，如果我们相对一个RDD进行复用操作的时候，基于RDD的特性，当以rdd通过transformation转化为另外一个rdd的时候，前面的rdd就会被自动释放，此时还想在原来的rdd身上进行其它操作，需要从源头进行数据计算，这样效率自然会降低。为了能够在rdd重用的时候，直

moshang_3377·2020-07-30 12:30

Spark:RDD操作和持久化

然后在创建了初始的RDD之后，才可以通过SparkCore提供的transformation算子，对该RDD进行转换，来获取其他的RDDSparkCore提供了三种创建RDD的方式使用程序中的集合创建RDD

焦焦^_^·2020-07-30 12:56

SparkCore：RDD Persistence持久化策略， persist和cache算子

文章目录1、RDDPersistence介绍2、persist()和cache()算子2.1cache底层源码2.2StorageLevel2.2StorageLevel使用2.3StorageLevel如何选择2.4RDD.unpersist()移除缓存数据官网：RDDPersistencehttp://spark.apache.org/docs/latest/rdd-programming-g

11号车厢·2020-07-30 12:30

SparkCore基础（一）

*SparkCore基础（一）学习Spark，首先要熟悉Scala，当然你说你会Python或者Java能不能玩Spark？能！

weixin_30629977·2020-07-30 02:01

SparkCore（16）：Spark内存管理机制1.6之前和1.6+

一、Spark1.6之前（固定的值）1.架构图2.具体分配Spark应用中代码使用内存：你编写的程序中使用到的内存=>20%Spark数据缓存的时候用到的内存：60%=>spark.storage.memoryFractionSparkshuffle过程中使用到的内存：20%=>spark.shuffle.memoryFraction3.官网spark.shuffle.memoryFraction

RayBreslin·2020-07-30 01:59

【Spark】SparkCore入门解析（五）

（图片来源于网络，侵删）MRShuffle和SparkShuffle机制和原理分析MR的ShuffleShuffle是什么？（以下部分图片来自于网络，侵删）Shuffle的本义是洗牌、混洗，把一组有一定规则的数据尽量转换成一组无规则的数据，越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程，把一组无规则的数据尽量转换成一组具有一定规则的数据为什么MapReduce计算模型需要Shu

默默走开·2020-07-29 23:16

【Spark】SparkCore入门解析（二）

（图片来源于网络，侵删）一、RDD概念【1】RDD概述①RDD（ResilientDistributedDataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合②在Spark中，对数据的所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值③RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性④RDD支持两种操

默默走开·2020-07-29 23:16

【Spark】SparkCore入门解析（四）

（图片来源于网络，侵删）一、Spark累加器和广播变量【1】累加器累加器是在Spark计算操作中变量值累加起来，可以被用来实现计数器、或者求和操作。Spark原生地只支持数字类型的累加器，用户可以继承累加器类来自定义累加器逻辑。如果创建累加器时指定了名字，可就以在SparkUI界面看到。这有利于理解每个执行阶段的进程。总的来说，累加器在Driver端定义赋初始值，累加器只能在Driver端读取，在

默默走开·2020-07-29 23:16

Spark Streaming 入门

SparkStreamingisanextensionofthecoreSparkAPIthatenablesscalable,high-throughput,fault-tolerantstreamprocessingoflivedatastreams.根据官网的解释,SparkStreaming是一个基于SparkCore

留歌36·2020-07-29 14:11

Spark Steaming快速入门

SparkSteamingSparkStreaming简介什么是SparkStreamingSparkStreaming使用SparkCore的快速调度功能来执行流分析。

exklin·2020-07-29 13:59

Spark Core面试篇01

SparkCore面试篇01随着Spark技术在企业中应用越来越广泛，Spark成为大数据开发必须掌握的技能。

weixin_41267871·2020-07-29 12:44

Spark深入解析（十四）：SparkCore之RDD的持久化/缓存、容错机制Checkpoint

目录RDD的持久化/缓存持久化/缓存API详解代码演示RDD的容错机制Checkpoint代码演示持久化和Checkpoint的区别RDD的持久化/缓存在实际开发中某些RDD的计算或转换可能会比较耗费时间，如果这些RDD后续还会频繁的被使用到，那么可以将这些RDD进行持久化/缓存，这样下次再使用到的时候就不用再重新计算了，提高了程序运行的效率持久化/缓存API详解persist方法和cache

老王的小知识·2020-07-29 00:53

Delta元数据解析

从事Spark内核优化，对SparkCore/SprakSQL有深入了解，SparkContributorDelta元数据解析元数据初识Delta有自己的元数据管理，主要有6种类型的元数据Action:

weixin_45906054·2020-07-28 23:24

不能错过的Delta元数据解析！

从事Spark内核优化，对SparkCore/SprakSQL有深入了解，SparkContributorDelta元数据解析元数据初识Delta有自己的元数据管理，主要有6种类型的元数据Action:

weixin_45906054·2020-07-28 23:54

基于 Spark 的数据分析实践

Spark主要包含了SparkCore、SparkSQL、SparkStreaming、MLLib和GraphX等组件。

EAWorld·2020-07-28 23:18

SparkCore:RDD-API史上最详细操作(内含面试题)

RDD-API创建RDD三种方法RDD的方法/算子分类Transformation转换算子Action动作算子统计操作基础练习[快速演示]准备工作案例1.WordCount2.创建RDD3.查看该RDD的分区数量4.map5.filter6.flatmap7.sortBy8.交集、并集、差集、笛卡尔积9.Join10.groupbykey11.cogroup[了解]12.groupBy13.red

真情流露哦呦·2020-07-28 22:05

SparkCore:RDD史上最详细的解释

RDD详解1.1.什么是RDD为什么要有RDD?在许多迭代式算法(比如机器学习、图算法等)和交互式数据挖掘中，不同计算阶段之间会重用中间结果，即一个阶段的输出结果会作为下一个阶段的输入。但是，之前的MapReduce框架采用非循环式的数据流模型，把中间结果写入到HDFS中，带来了大量的数据复制、磁盘IO和序列化开销。且这些框架只能支持一些特定的计算模式(map/reduce)，并没有提供一种通用的

真情流露哦呦·2020-07-28 21:34

SparkCore-RDD编程进阶

一、累加器累加器用来对信息进行聚合，通常在向Spark传递函数时，比如使用map()函数或者用filter()传条件时，可以使用驱动器程序中定义的变量，但是集群中运行的每个任务都会得到这些变量的一份新的副本，更新这些副本的值也不会影响驱动器中的对应变量。如果我们想实现所有分片处理时更新共享变量的功能，那么累加器可以实现我们想要的效果。1.系统累加器针对一个输入的日志文件，如果我们想计算文件中所有空

我是星星我会发光i·2020-07-28 21:42

深入理解Spark：核心思想与源码分析. 2.3　Spark基本设计思想

2.3Spark基本设计思想2.3.1Spark模块设计整个Spark主要由以下模块组成：SparkCore：Spark的核心功能实现，包括：SparkContext的初始化（DriverApplication

weixin_33995481·2020-07-28 18:41

Spark学习（1）——初识spark

Spark包含了大数据领域常见的各种计算框架；比如SparkCore勇于离线计算，SparkSQL用于交互式查询，SparkStreaming用于实时流式计算，SparkMLlib用于机器学习，SparkGraphX

Mbappe·2020-07-28 15:25

浪院长 | spark streaming的使用心得

其实，想用好sparkstreaming掌握sparkcore，sparkrpc，spark任务调度，spark并行度等原理还非常有必要。

大数据星球-浪尖·2020-07-28 10:37

SparkCore快速入门及介绍

什么是RDD弹性、分布式、数据集（数据存储在内存）弹性的，RDD中的数据可以保存在内存中或磁盘里面分布式存储，可以用于分布式计算集合，可以存放很多元素一个不可变，可分区，里面的元素可并行计算的集合RDD的主要属性数据集的基本组成但是一个组分片或一个分区列表，每个分片都会被一个计算任务处理，分区数量决定并发度。用户可以在创建RDD是指定RDD的分片个数，如果没有指定，那么久采用默认值（cpu盒数）一

lhh学bg·2020-07-28 09:57

SparkCore进阶:键值对RDD数据分区器,Hash与Ranger自定义分区,文件类数据读取与保存,文件系统类数据库数据读取与保存,RDD编程进阶,累加器,广播变量（调优策略）,RDD相关概念关系

接上篇文章第2章2.8:SparkCore之行动算子:Action算子与案例,RDD中的函数传递,方法与属性的传递,RDD依赖关系,Lineage,宽依赖与窄依赖,DAG,任务的划分,RDD缓存,RDDCheckPoint

DougLeaMrConcurrency·2020-07-28 09:16

Spark Streaming快速入门

SparkStreaming一、概述http://spark.apache.org/docs/latest/streaming-programming-guide.htmlSparkStreaming是SparkCore

Mcy2017·2020-07-28 08:27

sparkCore Api常用算子使用

packagesparkjava;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaPairRDD;importorg.apache.spark.api.java.JavaRDD;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.

骑着毛驴开大奔·2020-07-28 05:02

初识sparkCore

一、概念RDD(ResilientDistributedDataset)，弹性分布式数据集，是分布式内存的一个抽象概念。二、RDD的五大特性1、RDD是由一系列的partition组成的。partition一般有三种方式产生（1）从Scala集合中创建，通过调用SparkContext#makeRDD或SparkContext#parallelize是可以指定partition个数的，若指定了具体

LiryZlian·2020-07-28 03:20

[Spark进阶]--再识spark高阶架构

SparkEcoSystem几乎都是以SparkCore为核心而构建起来的，那么，先看看SparkCore的高阶架构：分别介绍下几个概念1、DriverProgramsAdriverprogramisanapplicationthatusesSparkasalibrary.ItprovidesthedataprocessingcodethatSparkexecutesontheworkernode

highfei2011·2020-07-27 23:17

SPARK CORE(python编程)

一、SPARKCORE的使用1.在JUPYTER网页上创建新的ipynb文件2.环境准备代码importosimportsysspark_home=os.environ.get('SPARK_HOME'

VanChaoi·2020-07-27 17:46

SparkCore-RDD 练习

1.原始数据如下：*格式：timestampprovincecityuseridadid*某个时间点某个省份某个城市某个用户某个广告 151660914386767641615166091438699475181516609143869178712151660914386928929*注意：•用户ID范围:0-99•省份、城市ID相同：0-9•adid:0-192.需求：统计每一个省份点击TOP3

似梦似意境·2020-07-27 16:27

SparkCore 累加器和广播变量(Spark编程进阶)

本章介绍前几章没有提及的Spark编程的各种进阶特性，会介绍两种类型的共享变量:累加器(accumulator)与广播变量(broadcastvariable)。累加器用来对信息进行聚合，而广播变量用来高效分发较大的对象。在已有的RDD转化操作的基础上，我们为类似查询数据库这样需要很大配置代价的任务引入了批操作。为了扩展可用的工具范围，本章会介绍Spark与外部程序交互的方式，比如如何与用R语言编

似梦似意境·2020-07-27 16:27

SparkCore-RDD编程详解

1.编程模型在Spark中，RDD被表示为对象，通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后，就可以调用actions触发RDD的计算，action可以是向应用程序返回结果(count,collect等)，或者是向存储系统保存数据(saveAsTextFile等)。在Spark中，只有遇到action，才会执行RDD的计算(即延迟计算)，这样在运

似梦似意境·2020-07-27 16:26

Spark深入解析（十二）：SparkCore之RDD中的函数传递

目录传递一个方法传递一个属性在实际开发中我们往往需要自己定义一些对于RDD的操作，那么此时需要主要的是，初始化工作是在Driver端进行的，而实际运行程序是在Executor端进行的，这就涉及到了跨进程通信，是需要序列化的。传递一个方法1．创建一个类classSearch(s:String){//过滤出包含字符串的数据defisMatch(s:String):Boolean={s.contai

老王的小知识·2020-07-27 14:47

SparkCore | Rdd依赖关系| 数据读取保存| 广播变量和累加器

Spark中三大数据结构：RDD；广播变量:分布式只读共享变量；累加器：分布式只写共享变量；线程和进程之间1.RDD中的函数传递自己定义一些RDD的操作，那么此时需要主要的是，初始化工作是在Driver端进行的，而实际运行程序是在Executor端进行的，这就涉及到了跨进程通信，是需要序列化的。传递一个方法classSearch(query:String){//extendsSerializabl

weixin_38166557·2020-07-27 13:13

Spark系列--SparkCore(三)RDD基本操作

前言RDD的基本操作分为两种，一种是转换Transformation，一种是行动ActionRDD中的所有转换都是延迟加载的，也就是说，它们并不会直接计算结果。相反的，它们只是记住这些应用到基础数据集（例如一个文件）上的转换动作。只有当发生一个要求返回结果给Driver的动作时，这些转换才会真正运行。这种设计让Spark更加有效率地运行。各算子的详细代码示例，参考如下：Spark算子使用示例一、常

淡淡的倔强·2020-07-27 13:27

推荐频道

---SparkCore

scala的面向对象,继承与特质

scala的面向对象，类与构造器

Spark Core源码精读计划7 | Spark执行环境的初始化

Spark系列--SparkCore(五)RDD容错性之cache、persist、checkpoint

38 Sparkcore中的BlockManager

Spark Core源码精读计划17 | 上下文清理器ContextCleaner

SparkCore>RDD的持久化/缓存

SparkCore之行动算子:Action算子与案例,RDD中的函数传递,方法与属性的传递,RDD依赖关系,Lineage,宽依赖与窄依赖,DAG,任务的划分,RDD缓存,RDD CheckPoint

SparkStreaming的介绍及处理数据流程

Spark core 记录-persist原数据操作

【SparkCore】RDD的持久化与缓存（HDFS与内存磁盘）

SparkCore之RDD依赖关系_RDD缓存_RDD CheckPoint

SparkCore快速入门系列（5）

Spark Streaming + Kafka + Flume + HBase

SparkCore:RDD的持久化/缓存

Spark Core源码精读计划20 | RDD检查点的具体实现

sparkCore之sparkRDD Persistence(sparkRDD持久化操作)

Spark:RDD操作和持久化

SparkCore：RDD Persistence持久化策略， persist和cache算子

SparkCore基础（一）

SparkCore（16）：Spark内存管理机制1.6之前和1.6+

【Spark】SparkCore入门解析（五）

【Spark】SparkCore入门解析（二）

【Spark】SparkCore入门解析（四）

Spark Streaming 入门

Spark Steaming快速入门

Spark Core面试篇01

Spark深入解析（十四）：SparkCore之RDD的持久化/缓存、容错机制Checkpoint

Delta元数据解析

不能错过的Delta元数据解析！

基于 Spark 的数据分析实践

SparkCore:RDD-API史上最详细操作(内含面试题)

SparkCore:RDD史上最详细的解释

SparkCore-RDD编程进阶

深入理解Spark：核心思想与源码分析. 2.3 Spark基本设计思想

Spark学习（1）——初识spark

浪院长 | spark streaming的使用心得

SparkCore快速入门及介绍

SparkCore进阶:键值对RDD数据分区器,Hash与Ranger自定义分区,文件类数据读取与保存,文件系统类数据库数据读取与保存,RDD编程进阶,累加器,广播变量（调优策略）,RDD相关概念关系

Spark Streaming快速入门

sparkCore Api常用算子使用

初识sparkCore

[Spark进阶]--再识spark高阶架构

SPARK CORE(python编程)

SparkCore-RDD 练习

SparkCore 累加器和广播变量(Spark编程进阶)

SparkCore-RDD编程详解

Spark深入解析（十二）：SparkCore之RDD中的函数传递

SparkCore | Rdd依赖关系| 数据读取保存| 广播变量和累加器

Spark系列--SparkCore(三)RDD基本操作

深入理解Spark：核心思想与源码分析. 2.3　Spark基本设计思想