Apache spark 在何处使用过滤器时spark如何读取数据_Apache Spark_Apache Spark Sql

Apache spark 在何处使用过滤器时spark如何读取数据

apache-spark

Apache spark 在何处使用过滤器时spark如何读取数据,apache-spark,apache-spark-sql,Apache Spark,Apache Spark Sql,我正在从一个巨大（900 GB）的表中读取一个键。这只是一个条件，但火花推出了大量的工作与巨大的任务没有我使用的是11节点集群（128 GB内存，每个节点16个内核）我知道，我们可能需要更多的任务，但为什么这么多的工作，为什么不能在一个阶段处理有人能解释一下，当我们使用where条件时，内部会发生什么情况感谢您的回复。Spark用于批量处理，而不是像您的图像显示的那样，在ORACLE数据库中使用索引进行单键查找。当然，对于多行的连接，这些查找更精细 Spark不知道您在做什么（语义上）

我正在从一个巨大（900 GB）的表中读取一个键。这只是一个条件，但火花推出了大量的工作与巨大的任务没有

我使用的是11节点集群（128 GB内存，每个节点16个内核）

我知道，我们可能需要更多的任务，但为什么这么多的工作，为什么不能在一个阶段处理

有人能解释一下，当我们使用where条件时，内部会发生什么情况

感谢您的回复。

Spark用于批量处理，而不是像您的图像显示的那样，在ORACLE数据库中使用索引进行单键查找。当然，对于多行的连接，这些查找更精细

Spark不知道您在做什么（语义上），因此它遵循其分布式模型并并行处理许多分区的任务

该图像不是Spark的正确用例

什么是

示例。表a

？从该表中仅读取。。它有一张什么样的桌子？一个Spark视图，一个SQL数据库表，一个Cassandra表。。。？Spark尝试将谓词推送到连接器（如果支持）。Spark sql表。数据砖三角洲（拼花地板）