Hive 使用配置单元全局调度

Hive 使用配置单元全局调度,hive,Hive,像这样使用配置单元时: select req_time from ncsa where req_time > 90 sort by req_time limt 100; 你会发现: 958 952 951 97 96 96 959 957 956 955 955 953 95 94 92 我猜在mapps中,日期分为几个部分,并按每个部分减少排序 请告诉我如何解决这个问题?使用排序依据而不是排序依据 排序依据和排序依据之间的区别在于前者保证输出中的总顺序,而后者仅保证减速机中行的

像这样使用配置单元时:

 select req_time from ncsa where req_time > 90 sort by req_time limt 100;
你会发现:

958
952
951 
97
96
96
959
957
956
955 
955
953
95
94
92
我猜在mapps中,日期分为几个部分,并按每个部分减少排序


请告诉我如何解决这个问题?

使用
排序依据
而不是
排序依据

排序依据
排序依据
之间的区别在于前者保证输出中的总顺序,而后者仅保证减速机中行的顺序。有关更多详细信息,请参阅

请确保
req\u time
是一个数字字段

我将引用以下的答案:

  • 按x聚类
    :确保N个减速器中的每一个都获得不重叠的范围, 然后在减速器处按这些范围进行排序。这给了你全球的机会 排序,与执行相同(
    按x分发
    按x排序
    )。 最终会得到N个或多个具有非重叠范围的已排序文件

  • 因此,
    clusterby
    -基本上是orderby的更具伸缩性的版本


我看不出任何问题,请更清楚地解释。很抱歉,应该是“从ncsa选择请求时间,其中请求时间>90按请求时间限制排序100”;并且结果不是按使用分组进行全局排序,然后再进行排序