hive-严格查询模式下set hive.mapred.mode=strict,order by必须加limit有没有系统性能的提升

    一、hive严格查询模式下使用order by必须加limit有没有系统性能的提升,个人认为是没有的(如果不对,欢迎大佬留言打脸)

     我理解就是加个必填项,让返回的结果集少点,别的在map-reduce阶段,没有任何性能的提升,order by执行完才执行的limit;

     书中看到这么一句话,强制用户增加这个limit语句可以防止reducer额外执行很长一段时间。

     我在别的博客中有这样看到的说法-如下图,不管怎么limit,数据集还是要在一个reducer上执行的;值得思考的点是,在reducer的时候是怎么排序的,如果是整个数据集全部排序完再limit,那没有任何改变的;如果是从大到小排序,那应该是有提升的,比如limit 10,取出了最大的十个剩下的就不再排序了,有大佬清楚的辛苦指教。

hive-严格查询模式下set hive.mapred.mode=strict,order by必须加limit有没有系统性能的提升_第1张图片

 

你可能感兴趣的:(hive)