Apache spark Spark禁用谓词下推_Apache Spark_Pyspark

Apache spark Spark禁用谓词下推

apache-spark pyspark

Apache spark Spark禁用谓词下推,apache-spark,pyspark,Apache Spark,Pyspark,我使用的是Spark 2.2。我在分区列上有一个连接查询，在其他列上也有一些过滤条件。所以，当我检查执行计划时，它如下所示它检查非空分区列它甚至在与第二个表联接之前就对整个表应用谓词。这导致Spark在所有分区上读取/应用过滤器，然后加入以获取数据。我的join子句实际上只命中一个分区为什么我的查询需要扫描所有分区？在执行连接时，有没有办法控制Spark中的谓词向下推？这是否回答了您的问题？这回答了你的问题吗？

我使用的是Spark 2.2。我在分区列上有一个连接查询，在其他列上也有一些过滤条件。所以，当我检查执行计划时，它如下所示

它检查非空分区列

它甚至在与第二个表联接之前就对整个表应用谓词。这导致Spark在所有分区上读取/应用过滤器，然后加入以获取数据。我的join子句实际上只命中一个分区

为什么我的查询需要扫描所有分区？在执行连接时，有没有办法控制Spark中的谓词向下推？

这是否回答了您的问题？这回答了你的问题吗？