使用Scala api将数据帧发送到EdgeRDD(GraphX)以激发
从Spark使用Scala api将数据帧发送到EdgeRDD(GraphX)以激发,scala,apache-spark,spark-graphx,Scala,Apache Spark,Spark Graphx,从SparkDataFrame到EdgeRDD有没有一种很好的方法,在Scala代码中没有硬编码类型?我看到的示例使用用例类来定义EdgeRDD的类型 让我们假设Spark数据帧具有StructField(“dstID”,LongType,false)和(“srcID,LongType,false),以及0到22个额外的StructField(我们对其进行约束,以便我们可以使用元组来表示它们)。通过从数据帧中获取类型,是否有一种干净的方法来定义EdgeRdd[TupleN]?作为动机,考虑我们正
DataFrame
到EdgeRDD
有没有一种很好的方法,在Scala代码中没有硬编码类型?我看到的示例使用用例类来定义EdgeRDD
的类型
让我们假设Spark数据帧
具有StructField
(“dstID”,LongType,false)和(“srcID,LongType,false)
,以及0到22个额外的StructField
(我们对其进行约束,以便我们可以使用元组来表示它们)。通过从数据帧
中获取类型,是否有一种干净的方法来定义EdgeRdd[TupleN]
?作为动机,考虑我们正在加载包含类型信息的实木拼合文件。
我对Spark和Scala非常陌生,所以我意识到这个问题可能被误导了。在这种情况下,我希望学习思考这个问题的“正确”方法。实现这一点的最简单方法可能是映射数据帧中的行对象(使用
map
)并以这种方式返回