如何在Spark 1.5.2上放置带有pyspark的拼花地板隔墙?

如何在Spark 1.5.2上放置带有pyspark的拼花地板隔墙?,pyspark,Pyspark,一旦我们将数据加载到一个praquet文件中,该文件在业务日期以整数格式(yyyyMMdd)分区,我们如何删除该分区并促进当天数据的重新处理。覆盖模式会重写整个已经很大的文件。您想做什么?您可以删除磁盘上YYMMDD的目录吗?删除文件夹不一定是干净的方法,拼花地板文件可能最终会损坏。生成的元文件不会反映已删除的分区文件夹。还有其他选择吗?

一旦我们将数据加载到一个praquet文件中,该文件在业务日期以整数格式(yyyyMMdd)分区,我们如何删除该分区并促进当天数据的重新处理。覆盖模式会重写整个已经很大的文件。

您想做什么?您可以删除磁盘上YYMMDD的目录吗?删除文件夹不一定是干净的方法,拼花地板文件可能最终会损坏。生成的元文件不会反映已删除的分区文件夹。还有其他选择吗?