Python 如何在Hadoop中读取各个文件中的文件名和字数?

Python 如何在Hadoop中读取各个文件中的文件名和字数?,python,hadoop,sequencefile,Python,Hadoop,Sequencefile,我正试图在python的dumbo包的帮助下从hadoop的序列文件中获取文件名。 但它为我提供了某种标识符。如何将此映射到文件名 以下是我在hadoop系统上获取文件名的步骤: 步骤1生成序列文件 命令: hadoop jar /mnt/Clustering/Checking/AllJars/binarypig-1.0-SNAPSHOT-jar-with-dependencies.jar com.endgame.binarypig.util.BuildSequenceFileFromDir /

我正试图在python的dumbo包的帮助下从hadoop的序列文件中获取文件名。 但它为我提供了某种标识符。如何将此映射到文件名

以下是我在hadoop系统上获取文件名的步骤:

步骤1生成序列文件

命令:

hadoop jar /mnt/Clustering/Checking/AllJars/binarypig-1.0-SNAPSHOT-jar-with-dependencies.jar com.endgame.binarypig.util.BuildSequenceFileFromDir /mnt/Clustering/Checking/text_files text_files_seq
步骤2通过hadoop在序列文件上运行python脚本

命令:

dumbo start dumbo_map_red.py -input text_files_seq -output out_res -hadoop /usr/local/hadoop
dumbo cat out_res/part-* -hadoop /usr/local/hadoop > out_res.txt
步骤3在本地目录中获取输出

命令:

dumbo start dumbo_map_red.py -input text_files_seq -output out_res -hadoop /usr/local/hadoop
dumbo cat out_res/part-* -hadoop /usr/local/hadoop > out_res.txt
dumbo_map_red.py在哪里

#!/usr/bin/env python

def mapper(key, value):
    yield key, 1

def reducer(key, values):
    yield key, sum(values)

if __name__ == "__main__":
    import dumbo
    dumbo.run(mapper, reducer)
请帮助我知道如何获取文件名。
如果他们是python中的另一个包,允许我以这种方式工作,请告诉我。

最终得到了将序列文件中的标识符映射到实际文件的提示

标识符是目录中文件的MD5