Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Spark在集群中写入SaveAsTextFile的位置?_Apache Spark - Fatal编程技术网

Apache spark Spark在集群中写入SaveAsTextFile的位置?

Apache spark Spark在集群中写入SaveAsTextFile的位置?,apache-spark,Apache Spark,我在这里有点不知所措(火花新手)。我启动了一个EC2集群,并在最后一步提交了一个Spark作业,该作业保存为文本文件。代码是 reduce_tuples.saveAsTextFile('september_2015') 我提交的python文件的工作目录是/root。我找不到名为Septer_2005的目录,如果我再次尝试运行作业,则会出现错误: : org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hd

我在这里有点不知所措(火花新手)。我启动了一个EC2集群,并在最后一步提交了一个Spark作业,该作业保存为文本文件。代码是

reduce_tuples.saveAsTextFile('september_2015')
我提交的python文件的工作目录是/root。我找不到名为Septer_2005的目录,如果我再次尝试运行作业,则会出现错误:

: org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://ec2-54-172-88-52.compute-1.amazonaws.com:9000/user/root/september_2015 already exists
ec2地址是我使用ssh连接到的主节点,但我没有文件夹/user/root


Spark似乎正在某处创建2015年9月的目录,但find没有找到它。Spark在哪里写入结果目录?为什么它将我指向主节点文件系统中不存在的目录?

您不是将其保存在本地文件系统中,而是将其保存在hdfs集群中。尝试
eph*-hdfs/bin/hadoop fs-ls/
,然后您应该会看到您的文件。有关更多命令,请参见
eph*-hdfs/bin/hadoop帮助
,例如
-copyToLocal

谢谢@reactormank!我现在可以看到文件夹了,我现在可以使用
短暂的hdfs/bin/hadoop fs-copyToLocal/user/root/septer\u 2015/root/
将文件夹复制到我的主节点。