Apache spark 如何使用Spark RDD高效地实现Simrank？_Apache Spark_Graph_Rdd

Apache spark 如何使用Spark RDD高效地实现Simrank？

apache-spark graph

Apache spark 如何使用Spark RDD高效地实现Simrank？,apache-spark,graph,rdd,Apache Spark,Graph,Rdd,我想使用spark rdd接口实现。但我的数据集太大，无法处理，因为二部图有数亿个节点，所以要找到所有邻域对的相似性分数在计算上非常昂贵。我试图找到一些现有的实现，但它们似乎都不具有可伸缩性。有什么建议吗？我建议先看看ApacheSpark生态系统附带的GraphX和库，看看它们是否适合您的需要。它们主要在RDD和数据帧之上引入图形处理支持。我认为如果graphx可以解决我的问题，那么RDD也可以吗？

我想使用spark rdd接口实现。但我的数据集太大，无法处理，因为二部图有数亿个节点，所以要找到所有邻域对的相似性分数在计算上非常昂贵。我试图找到一些现有的实现，但它们似乎都不具有可伸缩性。有什么建议吗？

我建议先看看ApacheSpark生态系统附带的GraphX和库，看看它们是否适合您的需要。它们主要在RDD和数据帧之上引入图形处理支持。

我认为如果graphx可以解决我的问题，那么RDD也可以吗？