Apache spark Spark在集群中写入SaveAsTextFile的位置?
我在这里有点不知所措(火花新手)。我启动了一个EC2集群,并在最后一步提交了一个Spark作业,该作业保存为文本文件。代码是Apache spark Spark在集群中写入SaveAsTextFile的位置?,apache-spark,Apache Spark,我在这里有点不知所措(火花新手)。我启动了一个EC2集群,并在最后一步提交了一个Spark作业,该作业保存为文本文件。代码是 reduce_tuples.saveAsTextFile('september_2015') 我提交的python文件的工作目录是/root。我找不到名为Septer_2005的目录,如果我再次尝试运行作业,则会出现错误: : org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hd
reduce_tuples.saveAsTextFile('september_2015')
我提交的python文件的工作目录是/root。我找不到名为Septer_2005的目录,如果我再次尝试运行作业,则会出现错误:
: org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://ec2-54-172-88-52.compute-1.amazonaws.com:9000/user/root/september_2015 already exists
ec2地址是我使用ssh连接到的主节点,但我没有文件夹/user/root
Spark似乎正在某处创建2015年9月的目录,但find没有找到它。Spark在哪里写入结果目录?为什么它将我指向主节点文件系统中不存在的目录?您不是将其保存在本地文件系统中,而是将其保存在hdfs集群中。尝试
eph*-hdfs/bin/hadoop fs-ls/
,然后您应该会看到您的文件。有关更多命令,请参见eph*-hdfs/bin/hadoop帮助
,例如-copyToLocal
谢谢@reactormank!我现在可以看到文件夹了,我现在可以使用短暂的hdfs/bin/hadoop fs-copyToLocal/user/root/septer\u 2015/root/
将文件夹复制到我的主节点。