Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/299.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python PySpark读取不存在文件时的错误处理_Python_Hadoop_Pyspark - Fatal编程技术网

Python PySpark读取不存在文件时的错误处理

Python PySpark读取不存在文件时的错误处理,python,hadoop,pyspark,Python,Hadoop,Pyspark,我有一个庞大的目录和文件列表,有可能从中读取。然而,其中一些可能实际上并不存在,这不是一个问题-我会简单地忽略任何错误-使用try方法。有没有一种方法可以让PySpark实现这一点 以下是返回的错误消息: py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe. : org.apache.hadoop.mapred.In

我有一个庞大的目录和文件列表,有可能从中读取。然而,其中一些可能实际上并不存在,这不是一个问题-我会简单地忽略任何错误-使用try方法。有没有一种方法可以让PySpark实现这一点

以下是返回的错误消息:

py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:
我正在构建一系列文件,以查看以下内容:

scI = sc.textFile(",".join(paths))

其中路径是指向可能文件的路径列表。现在,我可以检查文件系统,看看它们是否存在,但有没有更简单的方法可以做到这一点?

以下方法应该可以:

for f in file_list:
   Try:
       read_file(f)
   except org.apache.hadoop.mapred.InvalidInputException:
       deal_with_absent_file(f)

我可以用标准的os.path.isfile(fname)实现这一点,有没有办法在textFile调用中处理这个问题?