大数据之PySpark的RDD介绍

文章目录

  • 前言
  • 一、RDD简介
  • 二、RDD的特性
  • 三、RDD的特点
  • 总结


前言

之前的文章主要介绍Spark基础知识,例如集群角色、Spark集群运行流程等,接下来会进一步讨论Spark相对核心的知识,让我们拭目以待,同时也期待各位的精彩留言!

一、RDD简介

RDD称为弹性分布式数据集,是Spark中最基本的数据抽象,其为一个不可变、可分区、元素可并行计算的集合;RDD中的数据是分布式存储,可用于并行计算,同时,RDD中的数据可以存储在内存或者磁盘中,这就是“弹性”的意义所在。
大数据之PySpark的RDD介绍_第1张图片

二、RDD的特性

RDD有5大特性,前三个特性是每个RDD必备的,而后面两个特性是可选的,特性分别为:
(1)RDD数据集可分区;
(2)一个函数会作用在RDD的每一个分区上;
&#x

你可能感兴趣的:(Spark,大数据,spark)