Apache spark 如何在pyspark RDD中跟踪树？_Apache Spark_Pyspark

Apache spark 如何在pyspark RDD中跟踪树？

apache-spark pyspark

Apache spark 如何在pyspark RDD中跟踪树？,apache-spark,pyspark,Apache Spark,Pyspark,问题陈述 b1->a4->a3->a2->a1, result RDD: (b1,(a4,a3,a2,a1)) 文中给出了实例和预期结果。树由3列描述（树的深度是动态的），关系存在于列中。需要通过键入pyspark RDD将它们循环成一行。您有什么想法吗？多谢各位示例RDD: (null,a1,null) (null,a2,a1) (null,a3,a2) (null,a4,a3) (b1,null,a4) 在同一RDD中是否有多个树？您可以考虑使用Graphx，因

问题陈述

b1->a4->a3->a2->a1, result RDD: (b1,(a4,a3,a2,a1))

文中给出了实例和预期结果。树由3列描述（树的深度是动态的），关系存在于列中。需要通过键入

pyspark RDD

将它们循环成一行。您有什么想法吗？多谢各位

示例RDD:

(null,a1,null) (null,a2,a1) (null,a3,a2) (null,a4,a3) (b1,null,a4)

在同一RDD中是否有多个树？您可以考虑使用Graphx，因为它更适合这种类型的数据（取决于您最终想要使用它做什么）。请参阅：非常感谢，在同一RDD中只需要最长的树，树被非空列1“b1”拆分。