Python 在彼此的范围内平均数据点?

Python 在彼此的范围内平均数据点?,python,pandas,cluster-analysis,Python,Pandas,Cluster Analysis,我有一个包含以下列的熊猫数据框: lat1 lon1 lat2 lon2 lat和lon变量是以度为单位的纬度和经度。许多点彼此非常非常接近。我想将这个数据帧划分成“集群”,例如,将彼此相距60英尺以内的所有数据点分组在一起。我知道我可以使用geopy.distance.vincenty获得点之间的距离。但我不确定如何通过数据帧循环到基于彼此距离的聚类点。问题是您的任务没有很好地定义 考虑a、b、c点。设距离为:a到b:40,b到c:40,a到c80 现在,如果你想平均60分

我有一个包含以下列的熊猫数据框:

lat1    lon1    lat2    lon2

lat
lon
变量是以度为单位的纬度和经度。许多点彼此非常非常接近。我想将这个数据帧划分成“集群”,例如,将彼此相距60英尺以内的所有数据点分组在一起。我知道我可以使用
geopy.distance.vincenty
获得点之间的距离。但我不确定如何通过数据帧循环到基于彼此距离的聚类点。

问题是您的任务没有很好地定义

考虑a、b、c点。设距离为:a到b:40,b到c:40,a到c80

现在,如果你想平均60分,那么你需要用a和c来平均b,而不是a和c


在这里你需要更精确。可能是单链接群集,但可能您需要完整链接、平均链接、ward、DBSCAN或…

问题在于您的任务定义不明确

考虑a、b、c点。设距离为:a到b:40,b到c:40,a到c80

现在,如果你想平均60分,那么你需要用a和c来平均b,而不是a和c


在这里你需要更精确。可能是单链接群集,但可能您想要完整链接,或平均链接,或ward,或DBSCAN,或…

签出。这是一种不同的语言,但问题是相同的。您是希望对彼此距离固定的数据点进行分组(如示例中的60英尺),还是希望分组更具动态性?你可以看看后者的“基于密度的聚类”算法。你可以检查一下,我最初打算使用固定距离,但我喜欢你们提到的动态方法。我会试试的,谢谢!退房这是一种不同的语言,但问题是相同的。您是希望对彼此距离固定的数据点进行分组(如示例中的60英尺),还是希望分组更具动态性?你可以看看后者的“基于密度的聚类”算法。你可以检查一下,我最初打算使用固定距离,但我喜欢你们提到的动态方法。我会试试的,谢谢!