什么是RDD,有哪几种创建方式

RDD(Resilient Distributed Dataset,弹性分布式数据集 )是 Apache Spark 中最基本的数据抽象。它代表一个不可变、可分区、元素可并行操作的分布式数据集 。RDD 具有容错性,可在集群中弹性分布存储和计算,允许用户在大规模数据集上进行各种并行计算操作,比如转换(transformation)和动作(action)。

从并行集合创建:可以将本地的集合(如 Scala 中的数组、列表等)并行化创建 RDD。例如在 Scala 中,通过SparkContext.parallelize方法,将本地集合分发到集群的不同节点上形成 RDD。示例代码:val data = Array(1, 2, 3, 4, 5); val rdd = sc.parallelize(data) ,这里sc是SparkContext实例。
从外部存储系统创建:可以从 HDFS、S3 等分布式文件系统,或者 HBase、Cassandra 等数据库中读取数据来创建 RDD 。例如从 HDFS 读取文本文件创建 RDD,在 Scala 中代码为val rdd = sc.textFile("hdfs://path/to/file") 。

你可能感兴趣的:(java,spark)