Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/webpack/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 在何处使用过滤器时spark如何读取数据_Apache Spark_Apache Spark Sql - Fatal编程技术网

Apache spark 在何处使用过滤器时spark如何读取数据

Apache spark 在何处使用过滤器时spark如何读取数据,apache-spark,apache-spark-sql,Apache Spark,Apache Spark Sql,我正在从一个巨大(900 GB)的表中读取一个键。 这只是一个条件,但火花推出了大量的工作与巨大的任务没有 我使用的是11节点集群(128 GB内存,每个节点16个内核) 我知道,我们可能需要更多的任务,但为什么这么多的工作,为什么不能在一个阶段处理 有人能解释一下,当我们使用where条件时,内部会发生什么情况 感谢您的回复。Spark用于批量处理,而不是像您的图像显示的那样,在ORACLE数据库中使用索引进行单键查找。当然,对于多行的连接,这些查找更精细 Spark不知道您在做什么(语义上)

我正在从一个巨大(900 GB)的表中读取一个键。 这只是一个条件,但火花推出了大量的工作与巨大的任务没有

我使用的是11节点集群(128 GB内存,每个节点16个内核)

我知道,我们可能需要更多的任务,但为什么这么多的工作,为什么不能在一个阶段处理

有人能解释一下,当我们使用where条件时,内部会发生什么情况


感谢您的回复。

Spark用于批量处理,而不是像您的图像显示的那样,在ORACLE数据库中使用索引进行单键查找。当然,对于多行的连接,这些查找更精细

Spark不知道您在做什么(语义上),因此它遵循其分布式模型并并行处理许多分区的任务


该图像不是Spark的正确用例

什么是
示例。表a
?从该表中仅读取。。它有一张什么样的桌子?一个Spark视图,一个SQL数据库表,一个Cassandra表。。。?Spark尝试将谓词推送到连接器(如果支持)。Spark sql表。数据砖三角洲(拼花地板)