Apache spark spark.rdd.compress及其保存表格的效果
我问自己,当我将数据帧(在rdd级别上进行分区)保存到(例如)拼花地板表时,Apache spark spark.rdd.compress及其保存表格的效果,apache-spark,pyspark,Apache Spark,Pyspark,我问自己,当我将数据帧(在rdd级别上进行分区)保存到(例如)拼花地板表时,spark.rdd.compress是否也会起作用 或者换句话说:spark.rdd.compress是否也会压缩我使用dataframe.write.saveAsTable(…)时创建的表 取自,spark.rdd.compress执行以下操作: 是否压缩序列化的RDD分区(例如 StorageLevel.MEMORY\u ONLY\u Java和Scala中的服务器或 StorageLevel.MEMORY(仅在Py
spark.rdd.compress
是否也会起作用
或者换句话说:spark.rdd.compress
是否也会压缩我使用dataframe.write.saveAsTable(…)
时创建的表
取自,spark.rdd.compress执行以下操作:
是否压缩序列化的RDD分区(例如
StorageLevel.MEMORY\u ONLY\u Java和Scala中的服务器或
StorageLevel.MEMORY(仅在Python中)可以节省大量的存储空间
一些额外CPU时间的成本。压缩将使用
spark.io.compression.codec
所以,另外,如果这种压缩工作正常,那么从这样的表中再次检索数据是否也需要额外的CPU
spark.rdd.compress是否也压缩我在使用dataframe.write.saveAsTable(…)时创建的表
它不会,对于RDD接收器也不会
正如您引用的文档中所述,它仅适用于序列化(\u SER
)缓存。它与外部存储无关
spark.rdd.compress是否也压缩我在使用dataframe.write.saveAsTable(…)时创建的表
它不会,对于RDD接收器也不会
正如您引用的文档中所述,它仅适用于序列化(\u SER
)缓存。它与外部存储无关