Scala 使用partitionBy写入现有目录数据帧_Scala_Apache Spark

Scala 使用partitionBy写入现有目录数据帧

scala apache-spark

Scala 使用partitionBy写入现有目录数据帧,scala,apache-spark,Scala,Apache Spark,在下面的代码中，我无法将dataframe写入现有目录，它只是从spark submit作业中退出。除了创建新目录之外，还有其他方法可以将其写入现有目录吗这里的测试是一个数据帧 test.repartition（100）.write.partitionBy（“date”）.parquet（hdfslocation）如果每次写入时文件名不同，则始终可以写入现有目录。您应该找到一种机制来更改输出文件的名称如果要覆盖现有目录中的现有文件，则无需更改文件名，只需使用模式选项即可 test.repar

在下面的代码中，我无法将dataframe写入现有目录，它只是从spark submit作业中退出。除了创建新目录之外，还有其他方法可以将其写入现有目录吗

这里的测试是一个数据帧

test.repartition（100）.write.partitionBy（“date”）.parquet（hdfslocation）

如果每次写入时文件名不同，则始终可以写入现有目录。您应该找到一种机制来更改输出文件的名称

如果要

覆盖现有目录中的现有文件，则无需更改文件名，只需使用模式
选项即可
test.repartition(100).write.mode(SaveMode.Overwrite).partitionBy("date").parquet(hdfslocation)

您还可以使用其他模式选项：Append、ErrorIfExists、Ignore、valueOf、values