Apache spark Spark在集群中写入SaveAsTextFile的位置？_Apache Spark

Apache spark Spark在集群中写入SaveAsTextFile的位置？

apache-spark

Apache spark Spark在集群中写入SaveAsTextFile的位置？,apache-spark,Apache Spark,我在这里有点不知所措（火花新手）。我启动了一个EC2集群，并在最后一步提交了一个Spark作业，该作业保存为文本文件。代码是 reduce_tuples.saveAsTextFile('september_2015') 我提交的python文件的工作目录是/root。我找不到名为Septer_2005的目录，如果我再次尝试运行作业，则会出现错误： : org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hd

我在这里有点不知所措（火花新手）。我启动了一个EC2集群，并在最后一步提交了一个Spark作业，该作业保存为文本文件。代码是

reduce_tuples.saveAsTextFile('september_2015')

我提交的python文件的工作目录是/root。我找不到名为Septer_2005的目录，如果我再次尝试运行作业，则会出现错误：

: org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://ec2-54-172-88-52.compute-1.amazonaws.com:9000/user/root/september_2015 already exists

ec2地址是我使用ssh连接到的主节点，但我没有文件夹/user/root

Spark似乎正在某处创建2015年9月的目录，但find没有找到它。Spark在哪里写入结果目录？为什么它将我指向主节点文件系统中不存在的目录？

您不是将其保存在本地文件系统中，而是将其保存在hdfs集群中。尝试

eph*-hdfs/bin/hadoop fs-ls/

，然后您应该会看到您的文件。有关更多命令，请参见

eph*-hdfs/bin/hadoop帮助

，例如

-copyToLocal

谢谢@reactormank！我现在可以看到文件夹了，我现在可以使用

短暂的hdfs/bin/hadoop fs-copyToLocal/user/root/septer\u 2015/root/

将文件夹复制到我的主节点。