Spark external shuffle service

yarn external shuffle service

参考链接:

  • https://mp.weixin.qq.com/s/ZggMnX2r4uj8TrzUPTMLhQ
  • https://mp.weixin.qq.com/s/jY9KawiTLTV7jiO9DJOAZQ?poc_token=HF3gGmijj7mldjK-AIVa1TcjYrdbHRDLTBiju00D

shuffle过程包括shuffle read和shuffle write两个过程。对于spark on yarn,shuffle write是container写数据到本地磁盘(路径由core-site.xml中hadoop.tmp.dir指定)过程;shuffle read是container请求external shuffle服务获取数据过程,external shuffle是NodeManager进程中的一个服务,默认端口是7337,或者通过spark.shuffle.service.port指定。

日志参考
  • container_e20_1655737030493_122033905_01_010263 log,10.5.146.248
25

你可能感兴趣的:(spark,spark,大数据,分布式)