如何在python中直接访问hdfs文件?

如何在python中直接访问hdfs文件?,python,python-2.7,apache-spark,hadoop,mrjob,Python,Python 2.7,Apache Spark,Hadoop,Mrjob,我正在研究Hadoop和Spark框架,用于图像聚类。 我使用Python作为我的编程语言。对于map reduce框架,使用MRJOB包。 我的疑问是如何直接在python中访问hdfs文件? 例如,如果我在hdfs上的文件是/a.txt 现在,我如何在python中直接访问它以应用进一步的处理。 我查看了许多库,但没有得到具体的答案。我看到了snakebite,但它仅适用于python 2。为什么不使用Pyspark直接读取该文件?例如:sc.textFile(“hdfs:///your_p

我正在研究Hadoop和Spark框架,用于图像聚类。 我使用Python作为我的编程语言。对于map reduce框架,使用MRJOB包。 我的疑问是如何直接在python中访问hdfs文件? 例如,如果我在hdfs上的文件是/a.txt 现在,我如何在python中直接访问它以应用进一步的处理。
我查看了许多库,但没有得到具体的答案。我看到了snakebite,但它仅适用于python 2。

为什么不使用Pyspark直接读取该文件?例如:
sc.textFile(“hdfs:///your_path_to/a.txt“”