Pyspark文件系统fs.listStatus(sc._jvm.org.apache.hadoop.fs.Path(Path))只返回第一个子目录

Pyspark文件系统fs.listStatus(sc._jvm.org.apache.hadoop.fs.Path(Path))只返回第一个子目录,pyspark,hdfs,Pyspark,Hdfs,我想在Pyspark中递归地遍历给定的hdfs路径,而不使用hadoop fs-ls[path]。我尝试了建议的解决方案,但发现listStatus()仅返回给定路径中第一个子目录的状态。根据,如果路径是目录,listStatus应返回“给定路径中文件/目录的状态”。我缺少什么 我使用的是Hadoop 2.9.2、Spark 2.3.2和Python 2.7。我无法准确地重新创建场景,但我认为这与以下事实有关:如果路径不是目录,listStatus()在该路径上,将返回一个长度为1的列表,其中仅

我想在Pyspark中递归地遍历给定的hdfs路径,而不使用
hadoop fs-ls[path]
。我尝试了建议的解决方案,但发现
listStatus()
仅返回给定路径中第一个子目录的状态。根据,如果路径是目录,
listStatus
应返回“给定路径中文件/目录的状态”。我缺少什么


我使用的是Hadoop 2.9.2、Spark 2.3.2和Python 2.7。

我无法准确地重新创建场景,但我认为这与以下事实有关:如果路径不是目录,
listStatus()
在该路径上,将返回一个长度为1的列表,其中仅包含路径本身。

您可以发布您的代码吗?您使用该函数的确切方式是什么。