Python ApacheSpark-是否可以在同一RDD上计算N对N操作

Python ApacheSpark-是否可以在同一RDD上计算N对N操作,python,apache-spark,Python,Apache Spark,我目前正在用Python中的Spark开发一个应用程序。我拥有以下酒店数据集: Id、酒店名称、地址,纬度经度 我想计算一下,对于每一家酒店,位于附近的前5家酒店 有可能在Spark中这样做吗?我不知道是否可以将RDD与数据集并行,然后用整个数据集计算每一行 以下是我尝试过的: test=booking_data.cartesianbooking_data.maplambda x1,y1,x2,y2:两点之间的距离 两点之间的距离是我的函数,它计算两点并取四个参数 显示的错误是:ValueErr

我目前正在用Python中的Spark开发一个应用程序。我拥有以下酒店数据集: Id、酒店名称、地址,纬度经度

我想计算一下,对于每一家酒店,位于附近的前5家酒店

有可能在Spark中这样做吗?我不知道是否可以将RDD与数据集并行,然后用整个数据集计算每一行

以下是我尝试过的: test=booking_data.cartesianbooking_data.maplambda x1,y1,x2,y2:两点之间的距离

两点之间的距离是我的函数,它计算两点并取四个参数


显示的错误是:ValueError:太多的值无法解包

我实施了基于网格的搜索算法,以高效地查找每家酒店周围的顶级酒店,下面举例说明了这个想法。源代码可以在我的网站上找到


该算法基于将酒店分组为网格中的桶单元,并将每个酒店也分配到其附近的8个桶中。然后,这些数据由groupByKey汇集在一起,并独立于其他数据进行分析。我没有为它运行很多测试,但输出看起来是合理的。我希望这有助于将来的参考。

完全可能。试试看。我不确定我是否理解这个问题。您可以按距离筛选数据集,然后对不完整的注释执行.topSorry:尝试一下。。。如果它不起作用,给我们看一些代码,我很快就会做。感谢您的帮助这不是Spark问题,而是Python问题。您需要向我们提供更多的代码,并告诉我们错误发生的确切位置。