Python PySpark读取不存在文件时的错误处理_Python_Hadoop_Pyspark

Python PySpark读取不存在文件时的错误处理

python hadoop pyspark

Python PySpark读取不存在文件时的错误处理,python,hadoop,pyspark,Python,Hadoop,Pyspark,我有一个庞大的目录和文件列表，有可能从中读取。然而，其中一些可能实际上并不存在，这不是一个问题-我会简单地忽略任何错误-使用try方法。有没有一种方法可以让PySpark实现这一点以下是返回的错误消息： py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe. : org.apache.hadoop.mapred.In

我有一个庞大的目录和文件列表，有可能从中读取。然而，其中一些可能实际上并不存在，这不是一个问题-我会简单地忽略任何错误-使用try方法。有没有一种方法可以让PySpark实现这一点

以下是返回的错误消息：

py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:

我正在构建一系列文件，以查看以下内容：

scI = sc.textFile(",".join(paths))

其中路径是指向可能文件的路径列表。现在，我可以检查文件系统，看看它们是否存在，但有没有更简单的方法可以做到这一点？

以下方法应该可以：

for f in file_list:
   Try:
       read_file(f)
   except org.apache.hadoop.mapred.InvalidInputException:
       deal_with_absent_file(f)

我可以用标准的os.path.isfile（fname）实现这一点，有没有办法在textFile调用中处理这个问题？