Apache spark 需要使我的spark代码并行处理吗_Apache Spark

Apache spark 需要使我的spark代码并行处理吗

apache-spark

Apache spark 需要使我的spark代码并行处理吗,apache-spark,Apache Spark,我有两个数据帧。在一个数据帧中有一列，每个单元格中有一个值列表。需要检查其他数据帧中是否存在这些值中的任何一个。我目前正在对这两个数据帧进行收集，并将这两个数据帧都作为行列表来执行操作。现在的问题是，由于收集已完成，整个数据帧将在驱动程序上。是否可以通过并行处理完成此操作？将两个DFs保存为SPARK SQL TempView，并在存在时针对这两个DFs编写SQL。还有其他方法，但这听起来像是通过（嵌套的）相关子查询进行存在性检查。火花2.x。假定的从databricks文档中可以看到一个示

我有两个数据帧。在一个数据帧中有一列，每个单元格中有一个值列表。需要检查其他数据帧中是否存在这些值中的任何一个。

我目前正在对这两个数据帧进行收集，并将这两个数据帧都作为行列表来执行操作。现在的问题是，由于收集已完成，整个数据帧将在驱动程序上。是否可以通过并行处理完成此操作？

将两个DFs保存为SPARK SQL TempView，并在存在时针对这两个DFs编写SQL。还有其他方法，但这听起来像是通过（嵌套的）相关子查询进行存在性检查。火花2.x。假定的

从databricks文档中可以看到一个示例：

%sql
SELECT  *
 FROM    employee A
WHERE   NOT EXISTS (SELECT  1
                      FROM    visit B
                     WHERE   B.employee_id = A.employee_id)

对于记录，似乎有一些这样的问题，SQL再次变得流行：在SPARK SQL中，基于EXISTS的子查询计划为EXISTS使用左半联接，为NOT EXISTS使用左反联接。

请，阅读以下关于如何提问的链接：如果您能向我们展示您的数据框架数据框架1:id列表版本101 3,5,6,7 1 102 12,14,15 3数据框架2:id individualfrmlist版本101 8 2从数据框架1开始，我必须检查列表中的所有值，看看数据框架2中是否有相同的id和版本值加上1；是否存在单独的FRM列表。