Apache spark spark中相同拼花锉刀的不同尺寸
我只需使用spark读取拼花地板文件并进行Apache spark spark中相同拼花锉刀的不同尺寸,apache-spark,compression,parquet,Apache Spark,Compression,Parquet,我只需使用spark读取拼花地板文件并进行重新分区(1)洗牌;然后保存回拼花文件。有线的事情是新文件比原始文件大得多。甚至元数据文件也比原始文件大数百kb。有人注意到这个问题吗?有没有办法在一种压缩策略(例如:.gz格式)下使拼花地板文件尽可能小 编辑: 我读了另一篇文章,了解了这个问题的基本思路。我仍然希望讨论我们应该选择哪种专栏来做分类工作。我希望找到做这项工作的总体优化策略。我想说,我同意我的帖子中链接的想法。在我的情况下,排序将是一个不错的选择。具体来说,我测试了不同的列,也测试了单列和
重新分区(1)
洗牌;然后保存回拼花文件。有线的事情是新文件比原始文件大得多。甚至元数据文件也比原始文件大数百kb。有人注意到这个问题吗?有没有办法在一种压缩策略(例如:.gz格式)下使拼花地板文件尽可能小
编辑:
我读了另一篇文章,了解了这个问题的基本思路。我仍然希望讨论我们应该选择哪种专栏来做分类工作。我希望找到做这项工作的总体优化策略。我想说,我同意我的帖子中链接的想法。在我的情况下,排序将是一个不错的选择。具体来说,我测试了不同的列,也测试了单列和复合列。通常,使用包含文件大部分信息的列进行排序是一种有效的策略。欢迎评论 可能重复的