如何在python中直接访问hdfs文件？_Python_Python 2.7_Apache Spark_Hadoop_Mrjob

如何在python中直接访问hdfs文件？

python python-2.7 apache-spark hadoop

如何在python中直接访问hdfs文件？,python,python-2.7,apache-spark,hadoop,mrjob,Python,Python 2.7,Apache Spark,Hadoop,Mrjob,我正在研究Hadoop和Spark框架，用于图像聚类。我使用Python作为我的编程语言。对于map reduce框架，使用MRJOB包。我的疑问是如何直接在python中访问hdfs文件？例如，如果我在hdfs上的文件是/a.txt 现在，我如何在python中直接访问它以应用进一步的处理。我查看了许多库，但没有得到具体的答案。我看到了snakebite，但它仅适用于python 2。为什么不使用Pyspark直接读取该文件？例如：sc.textFile（“hdfs:///your_p

我正在研究Hadoop和Spark框架，用于图像聚类。我使用Python作为我的编程语言。对于map reduce框架，使用MRJOB包。我的疑问是如何直接在python中访问hdfs文件？ 例如，如果我在hdfs上的文件是/a.txt 现在，我如何在python中直接访问它以应用进一步的处理。

我查看了许多库，但没有得到具体的答案。我看到了snakebite，但它仅适用于python 2。

为什么不使用Pyspark直接读取该文件？例如：

sc.textFile（“hdfs:///your_path_to/a.txt“”