Apache spark 覆盖和附加到拼花地板之间有什么区别

Apache spark 覆盖和附加到拼花地板之间有什么区别,apache-spark,pyspark,amazon-emr,Apache Spark,Pyspark,Amazon Emr,在spark中附加和覆盖拼花地板有什么区别。 我正在处理大量的数据,比如说10天。目前,我正在使用“append”方法将每日日志处理到拼花地板文件中,并根据日期对数据进行分区。但我面临的问题是,日常数据也非常庞大,需要花费大量时间,这也导致了在使用EMR集群处理数据时CPU的使用率很高。这使得我的工作非常缓慢和昂贵。因此,我正在寻找一种方法,可以进一步拆分数据,并将数据合并到day cluster。请参阅spark SaveMode文档 标题和正文不匹配。

在spark中附加和覆盖拼花地板有什么区别。
我正在处理大量的数据,比如说10天。目前,我正在使用“append”方法将每日日志处理到拼花地板文件中,并根据日期对数据进行分区。但我面临的问题是,日常数据也非常庞大,需要花费大量时间,这也导致了在使用EMR集群处理数据时CPU的使用率很高。这使得我的工作非常缓慢和昂贵。因此,我正在寻找一种方法,可以进一步拆分数据,并将数据合并到day cluster。

请参阅spark SaveMode文档

标题和正文不匹配。