Apache spark 如何使用Spark RDD高效地实现Simrank?

Apache spark 如何使用Spark RDD高效地实现Simrank?,apache-spark,graph,rdd,Apache Spark,Graph,Rdd,我想使用spark rdd接口实现。但我的数据集太大,无法处理,因为二部图有数亿个节点,所以要找到所有邻域对的相似性分数在计算上非常昂贵。我试图找到一些现有的实现,但它们似乎都不具有可伸缩性。有什么建议吗?我建议先看看ApacheSpark生态系统附带的GraphX和库,看看它们是否适合您的需要。它们主要在RDD和数据帧之上引入图形处理支持。我认为如果graphx可以解决我的问题,那么RDD也可以吗?

我想使用spark rdd接口实现。但我的数据集太大,无法处理,因为二部图有数亿个节点,所以要找到所有邻域对的相似性分数在计算上非常昂贵。我试图找到一些现有的实现,但它们似乎都不具有可伸缩性。有什么建议吗?

我建议先看看ApacheSpark生态系统附带的GraphX和库,看看它们是否适合您的需要。它们主要在RDD和数据帧之上引入图形处理支持。

我认为如果graphx可以解决我的问题,那么RDD也可以吗?