Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 查询拼花文件嵌套列扫描整个列,即使对记录应用了谓词下推_Apache Spark_Hive_Nested_Parquet_Presto - Fatal编程技术网

Apache spark 查询拼花文件嵌套列扫描整个列,即使对记录应用了谓词下推

Apache spark 查询拼花文件嵌套列扫描整个列,即使对记录应用了谓词下推,apache-spark,hive,nested,parquet,presto,Apache Spark,Hive,Nested,Parquet,Presto,我在玩拼花地板。 我有事件的拼花文件,每个都由时间戳、主题和标记组成。 文件按主题排序,然后按时间戳排序。 我运行的查询可以描述为: select topic from T where topic = 404; 它运行得非常快,返回的行非常少。它的运行速度比: select topic from T; 当我将其更改为类似以下内容时: select tags from T where topic = 404; 它跑得和跑步一样慢 select tags from T; 在分析计划时,使用s

我在玩拼花地板。 我有事件的拼花文件,每个都由时间戳、主题和标记组成。 文件按主题排序,然后按时间戳排序。 我运行的查询可以描述为:

select topic from T where topic = 404;
它运行得非常快,返回的行非常少。它的运行速度比:

select topic from T;
当我将其更改为类似以下内容时:

select tags from T where topic = 404;
它跑得和跑步一样慢

select tags from T;
在分析计划时,使用spark时,似乎应用了谓词push-down,但从性能来看,我可以假设它不适用于标记列

我用蜂箱、火花和普雷斯托进行了测试。 对于它或者任何其他技术,有什么办法可以更好地处理镶木地板嵌套阵列吗

spark中的执行计划: ==实际计划==

*项目[tags4]

+-*过滤器不为NullTopic3L&&topic3L=404

+-*FileScan拼花[topic3L,tags4]成批:错误,格式: 拼花地板,位置:InMemoryFileIndex[文件:/example路径], 分区筛选器:[],PushedFilters:[IsNotNulltopic, equaltopic,404],ReadSchema:struct>

谢谢,
Roee

这是一个Spark问题,记录在

中。请共享执行计划。您好,共享了从T中选择标记的查询的执行计划,其中topic=404。解决这个问题谢谢,但这不是同一个问题。1.SPARK-17636显示谓词中涉及的嵌套字段不会触发下推。我的经验是,即使其他字段触发下推,嵌套字段也会被完全扫描。2.这一个仅限于spark,尽管spark/hive/presto的问题发生在我身上。因此,如果有一个问题是与拼花地板先生本身。