Algorithm 搜索给定长、宽、外K均值的171个点的点聚类算法

Algorithm 搜索给定长、宽、外K均值的171个点的点聚类算法,algorithm,location,cluster-analysis,Algorithm,Location,Cluster Analysis,我需要为171个客户创建集群,这些客户位于一个城市,为一所大学解决一个VRP问题,已经执行了K均值聚类,还需要一个算法来尝试其结果。虽然我们知道每个客户的长度和Lat,以及他们与仓库的距离,但遗憾的是,我们不知道仓库的位置。欢迎任何建议。对于纬度和经度,KMeans是一个糟糕的选择。因为地球是一个球体 在这样小的数据量下,使用层次聚集聚类、亲和传播、谱聚类和k-Medoids(PAM)。它们都接受一个距离矩阵,zou应该用Haversine距离而不是欧几里德距离来计算该矩阵。如果python是一

我需要为171个客户创建集群,这些客户位于一个城市,为一所大学解决一个VRP问题,已经执行了K均值聚类,还需要一个算法来尝试其结果。虽然我们知道每个客户的长度和Lat,以及他们与仓库的距离,但遗憾的是,我们不知道仓库的位置。欢迎任何建议。

对于纬度和经度,KMeans是一个糟糕的选择。因为地球是一个球体


在这样小的数据量下,使用层次聚集聚类、亲和传播、谱聚类和k-Medoids(PAM)。它们都接受一个距离矩阵,zou应该用Haversine距离而不是欧几里德距离来计算该矩阵。

如果python是一个选项,那么库中有许多不同的聚类算法。如果您知道预期集群的大小,另一种可能性是使用库,它使用图形分区算法。非常感谢,亲缘传播算法对于我的参数来说已经足够了。如果您知道客户的位置,以及他们到仓库的距离,您可以使用一些三边测量算法,例如[this one}()计算站点的位置。我记得我在一个包裹配送优化项目中这样做,结果非常不错,即使我们只有客户和站点之间的旅行时间。我可能也会尝试一下,这取决于我的主管教授的订单,非常感谢你的建议我们使用的原因K-means是因为每个客户点都存在于同一个城市,所以偏差非常小,为零。第二种方法是我开始修正亲和传播算法。原因是我的问题涉及到所有有时间窗口的客户的满意度,所以我想尝试c使用他们共同的时间窗口空间进行聚类。非常感谢您的回答。关于哈弗森:如果考虑的点属于地球上大致相同的区域(假设最大距离为1000公里就可以了),将纬度/经度坐标转换为UTM坐标是值得的,对于UTM坐标,无需使用haversine即可近似计算距离。这对于计算整个距离矩阵的haversine花费太长时间的大型数据集非常有用。@akallos一个小区域仍然会有大的失真!在纽约,失真已经是20%左右了。只有靠近赤道才可以。这就是UTM等预测存在的原因。我今天将查看它,看看我可以使用什么-从中检索,谢谢你的建议=)