Hadoop Mapreduce-确认文件是否拆分的正确方法

Hadoop Mapreduce-确认文件是否拆分的正确方法,hadoop,mapreduce,Hadoop,Mapreduce,我们有很多xml文件,我们希望使用一个映射器任务来处理一个xml,这显然是为了简化处理(解析)过程 我们编写了一个mapreduce程序,通过重写输入格式类的isSplitable方法来实现这一点。它似乎工作得很好 但是,我们想确认是否使用一个映射器来处理一个xml文件。是否有一种方法可以通过查看驱动程序生成的日志或任何其他方式进行确认 谢谢要回答您的问题,请检查地图绘制者计数的数量。 它应该等于输入文件的数量 例如: /ds/input /file1.xml /file2.x

我们有很多xml文件,我们希望使用一个映射器任务来处理一个xml,这显然是为了简化处理(解析)过程

我们编写了一个mapreduce程序,通过重写输入格式类的isSplitable方法来实现这一点。它似乎工作得很好

但是,我们想确认是否使用一个映射器来处理一个xml文件。是否有一种方法可以通过查看驱动程序生成的日志或任何其他方式进行确认


谢谢

要回答您的问题,请检查地图绘制者计数的数量。 它应该等于输入文件的数量

例如:

/ds/input 
    /file1.xml
    /file2.xml
    /file3.xml 
那么映射器计数应该是3

这是命令

 mapred job -counter job_1449114544347_0001 org.apache.hadoop.mapreduce.JobCounter TOTAL_LAUNCHED_MAPS

您可以使用mapred job-counter命令获得许多详细信息。你可以从这里查看视频54和55。它详细介绍了计数器。

谢谢,即使只有一个绘图员,它也是真的吗?是的。如果您的
InputFormat
类只创建了一个输入拆分,则只有一个映射器。