SparkSQL Shuffle分区数目

运行程序时,查看WEB UI监控页面发现,某个Stage中有200个Task任务,也就是说RDD中200分区Partition

SparkSQL Shuffle分区数目_第1张图片

可以设置在:

  1. 配置文件:conf/spark-defaults.conf: spark.sql.shuffle.partitions 100

  2. 在客户端提交参数中:bin/spark-submit --conf "spark.sql.shuffle.partitions=100"

  3. 在代码中可以设置:

    spark = SparkSession.builder.\
    	appName("create df").\
        master("local[*]").\
        config("spark.sql.shuffle.partitions", "2").\
        getOrCreate()
    

你可能感兴趣的:(大数据,大数据,spark,数据仓库)