Apache spark 在Spark中读取拼花文件时避免反序列化成本
我们正在使用拼花地板、Avro和Spark进行分析 大约40-50%的查询时间用于反序列化数据。这就是Avro在构建Avro的GenericRecords时的拼花地板交互(AvroRecordMaterialier)。我们通过使用带有虚拟记录物化器的自定义ReadSupport类(它对传递给它的数据不做任何处理)来确定这一点 我们在优化这方面有哪些选择?我们可以离开Avro,但使用protobufs,我们可以观察到类似的开销。其他人如何克服反序列化开销 此外,即使谓词下推(Filter2API)与某些行不匹配,我们仍然可以看到行组未基于元数据检查排除的情况下的开销。当拼花谓词不匹配时,如何避免整个记录的反序列化 谢谢Apache spark 在Spark中读取拼花文件时避免反序列化成本,apache-spark,avro,parquet,Apache Spark,Avro,Parquet,我们正在使用拼花地板、Avro和Spark进行分析 大约40-50%的查询时间用于反序列化数据。这就是Avro在构建Avro的GenericRecords时的拼花地板交互(AvroRecordMaterialier)。我们通过使用带有虚拟记录物化器的自定义ReadSupport类(它对传递给它的数据不做任何处理)来确定这一点 我们在优化这方面有哪些选择?我们可以离开Avro,但使用protobufs,我们可以观察到类似的开销。其他人如何克服反序列化开销 此外,即使谓词下推(Filter2API)