Mapreduce 如何知道分配给映射器的总行数

Mapreduce 如何知道分配给映射器的总行数,mapreduce,amazon-emr,Mapreduce,Amazon Emr,我正在运行mapreduce作业 我通过设置max_input_split_size字段来决定映射器的数量。 假设输入文件大小为1GB,最大输入大小为1mb。 因此,将在文件中为每个映射器分配一定数量的行 假设每个制图员都被分配了k条线 有没有办法找到这个值k。没有办法得到k的值,即分配给映射器的行数。它将根据拆分大小拆分文件,并将区块分配给映射器。我的用例是,在列表中保存对map()的每1k次调用,并立即处理它们。如果我不知道k,我将无法对

我正在运行mapreduce作业

我通过设置max_input_split_size字段来决定映射器的数量。 假设输入文件大小为1GB,最大输入大小为1mb。 因此,将在文件中为每个映射器分配一定数量的行

假设每个制图员都被分配了k条线


有没有办法找到这个值k。

没有办法得到k的值,即分配给映射器的行数。它将根据拆分大小拆分文件,并将区块分配给映射器。

我的用例是,在列表中保存对map()的每1k次调用,并立即处理它们。如果我不知道k,我将无法对<1k的最后一组剩余键执行此操作。我没有获得用例。如果您需要计算一些值,建议您在程序中使用计数器。为什么-1,在这个简单的问题中您不清楚什么,请评论。每个映射任务返回一个映射输入记录的值。如果每个输入记录对应一个新行,那么就有了它