Python 如何在Hadoop中读取各个文件中的文件名和字数？_Python_Hadoop_Sequencefile

Python 如何在Hadoop中读取各个文件中的文件名和字数？

python hadoop

Python 如何在Hadoop中读取各个文件中的文件名和字数？,python,hadoop,sequencefile,Python,Hadoop,Sequencefile,我正试图在python的dumbo包的帮助下从hadoop的序列文件中获取文件名。但它为我提供了某种标识符。如何将此映射到文件名以下是我在hadoop系统上获取文件名的步骤：步骤1生成序列文件命令： hadoop jar /mnt/Clustering/Checking/AllJars/binarypig-1.0-SNAPSHOT-jar-with-dependencies.jar com.endgame.binarypig.util.BuildSequenceFileFromDir /

我正试图在python的dumbo包的帮助下从hadoop的序列文件中获取文件名。但它为我提供了某种标识符。如何将此映射到文件名

以下是我在hadoop系统上获取文件名的步骤：

步骤1生成序列文件

命令：

hadoop jar /mnt/Clustering/Checking/AllJars/binarypig-1.0-SNAPSHOT-jar-with-dependencies.jar com.endgame.binarypig.util.BuildSequenceFileFromDir /mnt/Clustering/Checking/text_files text_files_seq

步骤2通过hadoop在序列文件上运行python脚本

命令：

dumbo start dumbo_map_red.py -input text_files_seq -output out_res -hadoop /usr/local/hadoop

dumbo cat out_res/part-* -hadoop /usr/local/hadoop > out_res.txt

步骤3在本地目录中获取输出

命令：

dumbo start dumbo_map_red.py -input text_files_seq -output out_res -hadoop /usr/local/hadoop

dumbo cat out_res/part-* -hadoop /usr/local/hadoop > out_res.txt

dumbo_map_red.py在哪里

#!/usr/bin/env python

def mapper(key, value):
    yield key, 1

def reducer(key, values):
    yield key, sum(values)

if __name__ == "__main__":
    import dumbo
    dumbo.run(mapper, reducer)

请帮助我知道如何获取文件名。

如果他们是python中的另一个包，允许我以这种方式工作，请告诉我。

最终得到了将序列文件中的标识符映射到实际文件的提示

标识符是目录中文件的MD5