Apache spark 在Spark中读取拼花文件时避免反序列化成本_Apache Spark_Avro_Parquet

Apache spark 在Spark中读取拼花文件时避免反序列化成本

apache-spark

Apache spark 在Spark中读取拼花文件时避免反序列化成本,apache-spark,avro,parquet,Apache Spark,Avro,Parquet,我们正在使用拼花地板、Avro和Spark进行分析大约40-50%的查询时间用于反序列化数据。这就是Avro在构建Avro的GenericRecords时的拼花地板交互（AvroRecordMaterialier）。我们通过使用带有虚拟记录物化器的自定义ReadSupport类（它对传递给它的数据不做任何处理）来确定这一点我们在优化这方面有哪些选择？我们可以离开Avro，但使用protobufs，我们可以观察到类似的开销。其他人如何克服反序列化开销此外，即使谓词下推（Filter2API）

我们正在使用拼花地板、Avro和Spark进行分析

大约40-50%的查询时间用于反序列化数据。这就是Avro在构建Avro的GenericRecords时的拼花地板交互（AvroRecordMaterialier）。我们通过使用带有虚拟记录物化器的自定义ReadSupport类（它对传递给它的数据不做任何处理）来确定这一点

我们在优化这方面有哪些选择？我们可以离开Avro，但使用protobufs，我们可以观察到类似的开销。其他人如何克服反序列化开销

此外，即使谓词下推（Filter2API）与某些行不匹配，我们仍然可以看到行组未基于元数据检查排除的情况下的开销。当拼花谓词不匹配时，如何避免整个记录的反序列化

谢谢