Sorting hadoop流媒体是否在map和reduce阶段之间使用稳定排序?
这会对多阶段作业产生影响。例如,如果我们在作业的第1阶段按“a”键排序,在作业的第2阶段按“b”键排序(将第1阶段的输出作为标准输入),我们是否可以假设在两个阶段完成时,记录按“b”键排序,其次按“a”键排序?对于这个问题,假设映射器和还原器不排列记录顺序。还假设reduce任务的数量为1或更多 请记住,根据阶段1的reduce任务数量,答案可能会有所不同。例如,如果阶段1的reduce任务数大于1,则键a将被分割到多个文件中(尽管按照每个文件的排序顺序)。但是,当只有一个reduce任务时,所有值都将显示在同一个文件中,这可能是稳定性的必要条件,具体取决于实现 如果答案是肯定的,那么链接到适当的文档将非常有用 谢谢Sorting hadoop流媒体是否在map和reduce阶段之间使用稳定排序?,sorting,hadoop,mergesort,stable-sort,Sorting,Hadoop,Mergesort,Stable Sort,这会对多阶段作业产生影响。例如,如果我们在作业的第1阶段按“a”键排序,在作业的第2阶段按“b”键排序(将第1阶段的输出作为标准输入),我们是否可以假设在两个阶段完成时,记录按“b”键排序,其次按“a”键排序?对于这个问题,假设映射器和还原器不排列记录顺序。还假设reduce任务的数量为1或更多 请记住,根据阶段1的reduce任务数量,答案可能会有所不同。例如,如果阶段1的reduce任务数大于1,则键a将被分割到多个文件中(尽管按照每个文件的排序顺序)。但是,当只有一个reduce任务时,所
SetJmp默认情况下,Hadoop不会强制执行您想要的稳定排序属性 Hadoop streaming具有Comparator和Partitioner,可以帮助将结果从映射到reduce进行排序;看一看 编辑:更新断开的链接