Apache spark spark中相同拼花锉刀的不同尺寸_Apache Spark_Compression_Parquet

Apache spark spark中相同拼花锉刀的不同尺寸

apache-spark compression

Apache spark spark中相同拼花锉刀的不同尺寸,apache-spark,compression,parquet,Apache Spark,Compression,Parquet,我只需使用spark读取拼花地板文件并进行重新分区（1）洗牌；然后保存回拼花文件。有线的事情是新文件比原始文件大得多。甚至元数据文件也比原始文件大数百kb。有人注意到这个问题吗？有没有办法在一种压缩策略（例如：.gz格式）下使拼花地板文件尽可能小编辑：我读了另一篇文章，了解了这个问题的基本思路。我仍然希望讨论我们应该选择哪种专栏来做分类工作。我希望找到做这项工作的总体优化策略。我想说，我同意我的帖子中链接的想法。在我的情况下，排序将是一个不错的选择。具体来说，我测试了不同的列，也测试了单列和

我只需使用spark读取拼花地板文件并进行

重新分区（1）

洗牌；然后保存回拼花文件。有线的事情是新文件比原始文件大得多。甚至元数据文件也比原始文件大数百kb。有人注意到这个问题吗？有没有办法在一种压缩策略（例如：.gz格式）下使拼花地板文件尽可能小

编辑：

我读了另一篇文章，了解了这个问题的基本思路。我仍然希望讨论我们应该选择哪种专栏来做分类工作。我希望找到做这项工作的总体优化策略。

我想说，我同意我的帖子中链接的想法。在我的情况下，排序将是一个不错的选择。具体来说，我测试了不同的列，也测试了单列和复合列。通常，使用包含文件大部分信息的列进行排序是一种有效的策略。欢迎评论

可能重复的