Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/entity-framework/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 在Spark中读取拼花文件时避免反序列化成本_Apache Spark_Avro_Parquet - Fatal编程技术网

Apache spark 在Spark中读取拼花文件时避免反序列化成本

Apache spark 在Spark中读取拼花文件时避免反序列化成本,apache-spark,avro,parquet,Apache Spark,Avro,Parquet,我们正在使用拼花地板、Avro和Spark进行分析 大约40-50%的查询时间用于反序列化数据。这就是Avro在构建Avro的GenericRecords时的拼花地板交互(AvroRecordMaterialier)。我们通过使用带有虚拟记录物化器的自定义ReadSupport类(它对传递给它的数据不做任何处理)来确定这一点 我们在优化这方面有哪些选择?我们可以离开Avro,但使用protobufs,我们可以观察到类似的开销。其他人如何克服反序列化开销 此外,即使谓词下推(Filter2API)

我们正在使用拼花地板、Avro和Spark进行分析

大约40-50%的查询时间用于反序列化数据。这就是Avro在构建Avro的GenericRecords时的拼花地板交互(AvroRecordMaterialier)。我们通过使用带有虚拟记录物化器的自定义ReadSupport类(它对传递给它的数据不做任何处理)来确定这一点

我们在优化这方面有哪些选择?我们可以离开Avro,但使用protobufs,我们可以观察到类似的开销。其他人如何克服反序列化开销

此外,即使谓词下推(Filter2API)与某些行不匹配,我们仍然可以看到行组未基于元数据检查排除的情况下的开销。当拼花谓词不匹配时,如何避免整个记录的反序列化

谢谢