Algorithm 在python中高效地查找最近的坐标(Long,Lat)

Algorithm 在python中高效地查找最近的坐标(Long,Lat),algorithm,sorting,pyspark,location,geo,Algorithm,Sorting,Pyspark,Location,Geo,我有一个pyspark点数据框架,以街道地址、城市、州、zipcode、经度和纬度的形式表示美国的某个位置 我想,对于每个点,从这个数据帧中获得最近的点(显然不包括有问题的点) 最有效的方法是什么 我使用的数据集大约有500万个不同的位置。首先想到的是四叉树。但首先你得说你得了多少分?如果您有n个点,则暴力解决问题需要n^2个操作,这可能没问题,也可能没问题。请尝试hnsw,非常快,您不需要分布式,如果不使用地理哈希,也非常快。@E.ZY。我将如何使用地理哈希?你能给我举个例子吗?首先想到的是四

我有一个pyspark点数据框架,以街道地址、城市、州、zipcode、经度和纬度的形式表示美国的某个位置

我想,对于每个点,从这个数据帧中获得最近的点(显然不包括有问题的点)

最有效的方法是什么


我使用的数据集大约有500万个不同的位置。

首先想到的是四叉树。但首先你得说你得了多少分?如果您有n个点,则暴力解决问题需要n^2个操作,这可能没问题,也可能没问题。请尝试hnsw,非常快,您不需要分布式,如果不使用地理哈希,也非常快。@E.ZY。我将如何使用地理哈希?你能给我举个例子吗?首先想到的是四叉树。但首先你得说你得了多少分?如果您有n个点,则暴力解决问题需要n^2个操作,这可能没问题,也可能没问题。请尝试hnsw,非常快,您不需要分布式,如果不使用地理哈希,也非常快。@E.ZY。我将如何使用地理哈希?你能给我举个例子吗?