Apache spark 火花嵌套RDD限制

Apache spark 火花嵌套RDD限制,apache-spark,apache-spark-sql,rdd,spark-dataframe,apache-spark-dataset,Apache Spark,Apache Spark Sql,Rdd,Spark Dataframe,Apache Spark Dataset,看起来不能执行嵌套RDD操作是Spark am目前面临的一个限制 目前,我从不同的表中加载了两个数据集(比如A和B),例如 数据集A中的每条记录,我需要查询另一个数据集B。在将其提交到数据库之前,结果将进一步转换 Join在这种情况下也不起作用,正如我在其他一些问题中看到的那样。 例如,嵌套的spark Sql查询如下所示: foreach(r => ... select x,y,z from A where k in (select i from B where j=r)

看起来不能执行嵌套RDD操作是Spark am目前面临的一个限制

目前,我从不同的表中加载了两个数据集(比如A和B),例如 数据集A中的每条记录,我需要查询另一个数据集B。在将其提交到数据库之前,结果将进一步转换

Join在这种情况下也不起作用,正如我在其他一些问题中看到的那样。 例如,嵌套的spark Sql查询如下所示:

foreach(r => ...
   select x,y,z from A
   where k in (select i from B where j=r)
那么,我如何通过嵌套处理A和B的每条记录呢


谢谢

您需要再解释一下。我认为加入实际上是可行的,但您确实需要更清楚地描述您正在尝试做的事情。