Yarn常见问题处理

任务出现container OOM异常导致作业失败

原因

Container内存不足或者作业数据倾斜

解决方案
  1. 检查Container相关参数,判断是否设置过小(低于4GB)。如果Container小于4GB,优先考虑调大当前作业container大小,如果是Tez任务,还需要同步调整以下参数

# tez container size
hive.tez.container.size
# task 资源,小于等于container size
tez.task.resource.memory.mb

  1. 如果Container大小大于6GB,则需要优先进行SQL逻辑检查优化,极有可能是SQL不合理等导致作业失败。

任务长时间没有执行进度

原因

可能原因:

  1. 队列资源不足

  2. AM资源超限

  3. 队列资源超限

  4. 用户资源超限

解决方案

方案1:检查YARN RM队列是否有足够资源。队列Used capacity是否超过Max capacity。

Yarn常见问题处理_第1张图片

  1. 检查AM资源超限:AM资源是否超限,Used Applic

你可能感兴趣的:(java,大数据,yarn)