Apache spark Spark禁用谓词下推

Apache spark Spark禁用谓词下推,apache-spark,pyspark,Apache Spark,Pyspark,我使用的是Spark 2.2。我在分区列上有一个连接查询,在其他列上也有一些过滤条件。所以,当我检查执行计划时,它如下所示 它检查非空分区列 它甚至在与第二个表联接之前就对整个表应用谓词。这导致Spark在所有分区上读取/应用过滤器,然后加入以获取数据。我的join子句实际上只命中一个分区 为什么我的查询需要扫描所有分区?在执行连接时,有没有办法控制Spark中的谓词向下推?这是否回答了您的问题?这回答了你的问题吗?

我使用的是Spark 2.2。我在分区列上有一个连接查询,在其他列上也有一些过滤条件。所以,当我检查执行计划时,它如下所示

  • 它检查非空分区列

  • 它甚至在与第二个表联接之前就对整个表应用谓词。这导致Spark在所有分区上读取/应用过滤器,然后加入以获取数据。我的join子句实际上只命中一个分区


  • 为什么我的查询需要扫描所有分区?在执行连接时,有没有办法控制Spark中的谓词向下推?

    这是否回答了您的问题?这回答了你的问题吗?