Apache spark 如何在pyspark RDD中跟踪树?

Apache spark 如何在pyspark RDD中跟踪树?,apache-spark,pyspark,Apache Spark,Pyspark,问题陈述 b1->a4->a3->a2->a1, result RDD: (b1,(a4,a3,a2,a1)) 文中给出了实例和预期结果。树由3列描述(树的深度是动态的),关系存在于列中。 需要通过键入pyspark RDD将它们循环成一行。您有什么想法吗?多谢各位 示例RDD: (null,a1,null) (null,a2,a1) (null,a3,a2) (null,a4,a3) (b1,null,a4) 在同一RDD中是否有多个树?您可以考虑使用Graphx,因

问题陈述

b1->a4->a3->a2->a1, result RDD: (b1,(a4,a3,a2,a1))
文中给出了实例和预期结果。树由3列描述(树的深度是动态的),关系存在于列中。 需要通过键入
pyspark RDD
将它们循环成一行。您有什么想法吗?多谢各位

示例RDD:

(null,a1,null) (null,a2,a1) (null,a3,a2) (null,a4,a3) (b1,null,a4)
在同一RDD中是否有多个树?您可以考虑使用Graphx,因为它更适合这种类型的数据(取决于您最终想要使用它做什么)。请参阅:非常感谢,在同一RDD中只需要最长的树,树被非空列1“b1”拆分。