Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/google-sheets/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 删除在pyspark中使用numpy.savetxt创建的csv文件_Python_Numpy_Pyspark - Fatal编程技术网

Python 删除在pyspark中使用numpy.savetxt创建的csv文件

Python 删除在pyspark中使用numpy.savetxt创建的csv文件,python,numpy,pyspark,Python,Numpy,Pyspark,我是pyspark和python的新手。 使用numpy.savetxt(“test.csv”,file,delimiter=',”)在本地系统中保存文件后 我正在使用os删除该文件操作系统删除(“test.csv”)。我收到一个错误,java.io.FileNotFoundException文件:/someDir/test.csv不存在。文件numpy.savetxt()仅创建具有读取权限的文件。如何使用读写权限保存该文件。 使用spark 2.1版看起来您的spark工作人员无法访问该文件。

我是pyspark和python的新手。 使用
numpy.savetxt(“test.csv”,file,delimiter=',”)在本地系统中保存文件后
我正在使用os删除该文件<代码>操作系统删除(“test.csv”)。我收到一个错误,java.io.FileNotFoundException文件:/someDir/test.csv不存在。文件
numpy.savetxt()
仅创建具有读取权限的文件。如何使用读写权限保存该文件。
使用spark 2.1版看起来您的spark工作人员无法访问该文件。您可能正在不同的服务器上运行master和worker。当您尝试处理文件时,在不同计算机上设置工作人员时,请确保这些工作人员可以访问该文件。您可以将所有工作人员中的相同文件副本保留在完全相同的位置。建议始终使用类似Hadoop之类的DFS“hdfs://path/file". 执行此操作时,工作人员可以访问这些文件。 详情如下:

spark可能与此无关,因为您正在使用numpy的API在本地保存文件。您是否手动检查了在
numpy.savetxt
之后,文件是否确实存在于本地系统上?是的,它确实存在于本地系统上。我最近观察到的另一件事是,我无法从pyspark shell读取csv文件。要从本地文件系统读取,您必须提供完整地址,如-
filerdd=sc.textFile(“file:///path/to/file.txt“”
我尝试了相同的方法,但我从pyspark shell中获取了“未找到文件”异常。这是堆栈跟踪文件“/apps/spark-2.1.0/python/lib/py4j-0.10.4-src.zip/py4j/protocol.py”,第319行,在get_return_value py4j.protocol.Py4JJavaError:调用o36.load时出错:org.apache.spark.sparkeexception:作业因阶段失败而中止:阶段0.0中的任务0失败了4次,最近的失败:阶段0.0中的任务0.3丢失(TID 3,30.0.0.167,executor 0):java.io.FileNotFoundException:文件文件文件:/opt/center.csv在org.apache.hadoop.fs.rawLocalFileFileSystem.deprecatedGetFileStatus(rawLocalFileFileFileFileSystem.java:611)中不存在我将spark 2.1版本与python 3.4一起使用