Python ApacheSpark-是否可以在同一RDD上计算N对N操作_Python_Apache Spark

Python ApacheSpark-是否可以在同一RDD上计算N对N操作

python apache-spark

Python ApacheSpark-是否可以在同一RDD上计算N对N操作,python,apache-spark,Python,Apache Spark,我目前正在用Python中的Spark开发一个应用程序。我拥有以下酒店数据集： Id、酒店名称、地址，纬度经度我想计算一下，对于每一家酒店，位于附近的前5家酒店有可能在Spark中这样做吗？我不知道是否可以将RDD与数据集并行，然后用整个数据集计算每一行以下是我尝试过的： test=booking_data.cartesianbooking_data.maplambda x1，y1，x2，y2：两点之间的距离两点之间的距离是我的函数，它计算两点并取四个参数显示的错误是：ValueErr

我目前正在用Python中的Spark开发一个应用程序。我拥有以下酒店数据集： Id、酒店名称、地址，纬度经度

我想计算一下，对于每一家酒店，位于附近的前5家酒店

有可能在Spark中这样做吗？我不知道是否可以将RDD与数据集并行，然后用整个数据集计算每一行

以下是我尝试过的： test=booking_data.cartesianbooking_data.maplambda x1，y1，x2，y2：两点之间的距离

两点之间的距离是我的函数，它计算两点并取四个参数

显示的错误是：ValueError：太多的值无法解包

我实施了基于网格的搜索算法，以高效地查找每家酒店周围的顶级酒店，下面举例说明了这个想法。源代码可以在我的网站上找到

该算法基于将酒店分组为网格中的桶单元，并将每个酒店也分配到其附近的8个桶中。然后，这些数据由groupByKey汇集在一起，并独立于其他数据进行分析。我没有为它运行很多测试，但输出看起来是合理的。我希望这有助于将来的参考。

完全可能。试试看。我不确定我是否理解这个问题。您可以按距离筛选数据集，然后对不完整的注释执行.topSorry：尝试一下。。。如果它不起作用，给我们看一些代码，我很快就会做。感谢您的帮助这不是Spark问题，而是Python问题。您需要向我们提供更多的代码，并告诉我们错误发生的确切位置。