Python PySpark读取不存在文件时的错误处理
我有一个庞大的目录和文件列表,有可能从中读取。然而,其中一些可能实际上并不存在,这不是一个问题-我会简单地忽略任何错误-使用try方法。有没有一种方法可以让PySpark实现这一点 以下是返回的错误消息:Python PySpark读取不存在文件时的错误处理,python,hadoop,pyspark,Python,Hadoop,Pyspark,我有一个庞大的目录和文件列表,有可能从中读取。然而,其中一些可能实际上并不存在,这不是一个问题-我会简单地忽略任何错误-使用try方法。有没有一种方法可以让PySpark实现这一点 以下是返回的错误消息: py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe. : org.apache.hadoop.mapred.In
py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:
我正在构建一系列文件,以查看以下内容:
scI = sc.textFile(",".join(paths))
其中路径是指向可能文件的路径列表。现在,我可以检查文件系统,看看它们是否存在,但有没有更简单的方法可以做到这一点?以下方法应该可以:
for f in file_list:
Try:
read_file(f)
except org.apache.hadoop.mapred.InvalidInputException:
deal_with_absent_file(f)
我可以用标准的os.path.isfile(fname)实现这一点,有没有办法在textFile调用中处理这个问题?