Python 如何计算pyspark中的距离矩阵?

Python 如何计算pyspark中的距离矩阵?,python,distributed-filesystem,Python,Distributed Filesystem,我有一个包含100000条记录的数据集。我需要找到这个数据集的欧几里德距离矩阵。它应该创建1,00000*1,00000矩阵。在python中,我们有squareform(pdist(x))。由于我不能在rdd上执行相同的函数,如何在python的spark平台上执行

我有一个包含100000条记录的数据集。我需要找到这个数据集的欧几里德距离矩阵。它应该创建1,00000*1,00000矩阵。在python中,我们有
squareform(pdist(x))
。由于我不能在rdd上执行相同的函数,如何在python的spark平台上执行