Spark中自定义分区器实现shuffle

 Spark中实现了两种类型的分区函数,一个是基于哈希的HashPartitioner,另外一个是基于范围的RangPartitioner。只对于key--value的

的RDD才有Partitioner。决定shuffle后的分区输出数量。同时我们可以自定义Partitioner。

 

 



import java.net.URL

import org.apache.spark.rdd.RDD
import org.apache.spark.{Partitioner, SparkConf, SparkContext}

import scala.collection.mutable

/**
  * Created by hqs on 2018/1/27.
  * 1.URL字符串转对象URL得host
  * 2.Spark中自定义分区器实现shuffle,与reduce

你可能感兴趣的:(spark,Spark自定义分区器,Partitioner,URL对象转换)