Apache spark 需要使我的spark代码并行处理吗

Apache spark 需要使我的spark代码并行处理吗,apache-spark,Apache Spark,我有两个数据帧。在一个数据帧中有一列,每个单元格中有一个值列表。需要检查其他数据帧中是否存在这些值中的任何一个。 我目前正在对这两个数据帧进行收集,并将这两个数据帧都作为行列表来执行操作。现在的问题是,由于收集已完成,整个数据帧将在驱动程序上。是否可以通过并行处理完成此操作?将两个DFs保存为SPARK SQL TempView,并在存在时针对这两个DFs编写SQL。还有其他方法,但这听起来像是通过(嵌套的)相关子查询进行存在性检查。火花2.x。假定的 从databricks文档中可以看到一个示

我有两个数据帧。在一个数据帧中有一列,每个单元格中有一个值列表。需要检查其他数据帧中是否存在这些值中的任何一个。
我目前正在对这两个数据帧进行收集,并将这两个数据帧都作为行列表来执行操作。现在的问题是,由于收集已完成,整个数据帧将在驱动程序上。是否可以通过并行处理完成此操作?

将两个DFs保存为SPARK SQL TempView,并在存在时针对这两个DFs编写SQL。还有其他方法,但这听起来像是通过(嵌套的)相关子查询进行存在性检查。火花2.x。假定的

从databricks文档中可以看到一个示例:

%sql
SELECT  *
 FROM    employee A
WHERE   NOT EXISTS (SELECT  1
                      FROM    visit B
                     WHERE   B.employee_id = A.employee_id)

对于记录,似乎有一些这样的问题,SQL再次变得流行:在SPARK SQL中,基于EXISTS的子查询计划为EXISTS使用左半联接,为NOT EXISTS使用左反联接。

请,阅读以下关于如何提问的链接:如果您能向我们展示您的数据框架数据框架1:id列表版本101 3,5,6,7 1 102 12,14,15 3数据框架2:id individualfrmlist版本101 8 2从数据框架1开始,我必须检查列表中的所有值,看看数据框架2中是否有相同的id和版本值加上1;是否存在单独的FRM列表。