RDD的创建 操作类型 缓存

一、创建

1、外部数据源读取 hdfs sc.textFile("文件路径") hbase amasons3....

2、来自于本身的集合 sc.parallelize(List(1,2,3))  Parallezied Collection

二、操作类型

1、RDD Transformation 懒执行  会记录怎么转换而来,一旦出错可以重新来过

2、RDD action 触发计算,进行实际的数据处理

三、缓存persistent

1、cache ,是延迟执行的 ,需要在action执行之后进行RDD缓存

       cache是特殊的persistent缓存方式,将RDD放到内存中


你可能感兴趣的:(RDD的创建 操作类型 缓存)