Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark spark中相同拼花锉刀的不同尺寸_Apache Spark_Compression_Parquet - Fatal编程技术网

Apache spark spark中相同拼花锉刀的不同尺寸

Apache spark spark中相同拼花锉刀的不同尺寸,apache-spark,compression,parquet,Apache Spark,Compression,Parquet,我只需使用spark读取拼花地板文件并进行重新分区(1)洗牌;然后保存回拼花文件。有线的事情是新文件比原始文件大得多。甚至元数据文件也比原始文件大数百kb。有人注意到这个问题吗?有没有办法在一种压缩策略(例如:.gz格式)下使拼花地板文件尽可能小 编辑: 我读了另一篇文章,了解了这个问题的基本思路。我仍然希望讨论我们应该选择哪种专栏来做分类工作。我希望找到做这项工作的总体优化策略。我想说,我同意我的帖子中链接的想法。在我的情况下,排序将是一个不错的选择。具体来说,我测试了不同的列,也测试了单列和

我只需使用spark读取拼花地板文件并进行
重新分区(1)
洗牌;然后保存回拼花文件。有线的事情是新文件比原始文件大得多。甚至元数据文件也比原始文件大数百kb。有人注意到这个问题吗?有没有办法在一种压缩策略(例如:.gz格式)下使拼花地板文件尽可能小

编辑:
我读了另一篇文章,了解了这个问题的基本思路。我仍然希望讨论我们应该选择哪种专栏来做分类工作。我希望找到做这项工作的总体优化策略。

我想说,我同意我的帖子中链接的想法。在我的情况下,排序将是一个不错的选择。具体来说,我测试了不同的列,也测试了单列和复合列。通常,使用包含文件大部分信息的列进行排序是一种有效的策略。欢迎评论

可能重复的