Pyspark文件系统fs.listStatus（sc._jvm.org.apache.hadoop.fs.Path（Path））只返回第一个子目录_Pyspark_Hdfs

Pyspark文件系统fs.listStatus（sc._jvm.org.apache.hadoop.fs.Path（Path））只返回第一个子目录

pyspark

Pyspark文件系统fs.listStatus（sc._jvm.org.apache.hadoop.fs.Path（Path））只返回第一个子目录,pyspark,hdfs,Pyspark,Hdfs,我想在Pyspark中递归地遍历给定的hdfs路径，而不使用hadoop fs-ls[path]。我尝试了建议的解决方案，但发现listStatus（）仅返回给定路径中第一个子目录的状态。根据，如果路径是目录，listStatus应返回“给定路径中文件/目录的状态”。我缺少什么我使用的是Hadoop 2.9.2、Spark 2.3.2和Python 2.7。我无法准确地重新创建场景，但我认为这与以下事实有关：如果路径不是目录，listStatus（）在该路径上，将返回一个长度为1的列表，其中仅

我想在Pyspark中递归地遍历给定的hdfs路径，而不使用

hadoop fs-ls[path]

。我尝试了建议的解决方案，但发现

listStatus（）

仅返回给定路径中第一个子目录的状态。根据，如果路径是目录，

listStatus

应返回“给定路径中文件/目录的状态”。我缺少什么

我使用的是Hadoop 2.9.2、Spark 2.3.2和Python 2.7。

我无法准确地重新创建场景，但我认为这与以下事实有关：如果路径不是目录，

listStatus（）

在该路径上，将返回一个长度为1的列表，其中仅包含路径本身。

您可以发布您的代码吗？您使用该函数的确切方式是什么。