Apache spark 火花缓存与拼花数据
我发现Spark缓存存在问题。我正在使用Spark through Spark shell读取拼花地板数据(大约50GB)(用Snappy压缩)。然后我使用选项MEMORY\u ONLY\u SER缓存这些数据。数据是100%缓存的。令人惊讶的是,这些数据在缓存中占据了500GB的空间Apache spark 火花缓存与拼花数据,apache-spark,caching,parquet,Apache Spark,Caching,Parquet,我发现Spark缓存存在问题。我正在使用Spark through Spark shell读取拼花地板数据(大约50GB)(用Snappy压缩)。然后我使用选项MEMORY\u ONLY\u SER缓存这些数据。数据是100%缓存的。令人惊讶的是,这些数据在缓存中占据了500GB的空间 有没有办法确保缓存只包含大约50GB的数据?我尝试设置spark.io.compression.codec=“org.apache.spark.io.SnappyCompressionCodec”和spark.r
第三点是预期的(见相关和),实际上我的镶木地板数据是深度嵌套的,我读到Spark无法处理嵌套的镶木地板数据。分解这些数据,然后缓存它们会有任何帮助吗?