Algorithm 搜索给定长、宽、外K均值的171个点的点聚类算法_Algorithm_Location_Cluster Analysis

Algorithm 搜索给定长、宽、外K均值的171个点的点聚类算法

algorithm

Algorithm 搜索给定长、宽、外K均值的171个点的点聚类算法,algorithm,location,cluster-analysis,Algorithm,Location,Cluster Analysis,我需要为171个客户创建集群，这些客户位于一个城市，为一所大学解决一个VRP问题，已经执行了K均值聚类，还需要一个算法来尝试其结果。虽然我们知道每个客户的长度和Lat，以及他们与仓库的距离，但遗憾的是，我们不知道仓库的位置。欢迎任何建议。对于纬度和经度，KMeans是一个糟糕的选择。因为地球是一个球体在这样小的数据量下，使用层次聚集聚类、亲和传播、谱聚类和k-Medoids（PAM）。它们都接受一个距离矩阵，zou应该用Haversine距离而不是欧几里德距离来计算该矩阵。如果python是一

我需要为171个客户创建集群，这些客户位于一个城市，为一所大学解决一个VRP问题，已经执行了K均值聚类，还需要一个算法来尝试其结果。虽然我们知道每个客户的长度和Lat，以及他们与仓库的距离，但遗憾的是，我们不知道仓库的位置。欢迎任何建议。

对于纬度和经度，KMeans是一个糟糕的选择。因为地球是一个球体

在这样小的数据量下，使用层次聚集聚类、亲和传播、谱聚类和k-Medoids（PAM）。它们都接受一个距离矩阵，zou应该用Haversine距离而不是欧几里德距离来计算该矩阵。

如果python是一个选项，那么库中有许多不同的聚类算法。如果您知道预期集群的大小，另一种可能性是使用库，它使用图形分区算法。非常感谢，亲缘传播算法对于我的参数来说已经足够了。如果您知道客户的位置，以及他们到仓库的距离，您可以使用一些三边测量算法，例如[this one}（）计算站点的位置。我记得我在一个包裹配送优化项目中这样做，结果非常不错，即使我们只有客户和站点之间的旅行时间。我可能也会尝试一下，这取决于我的主管教授的订单，非常感谢你的建议我们使用的原因K-means是因为每个客户点都存在于同一个城市，所以偏差非常小，为零。第二种方法是我开始修正亲和传播算法。原因是我的问题涉及到所有有时间窗口的客户的满意度，所以我想尝试c使用他们共同的时间窗口空间进行聚类。非常感谢您的回答。关于哈弗森：如果考虑的点属于地球上大致相同的区域（假设最大距离为1000公里就可以了），将纬度/经度坐标转换为UTM坐标是值得的，对于UTM坐标，无需使用haversine即可近似计算距离。这对于计算整个距离矩阵的haversine花费太长时间的大型数据集非常有用。@akallos一个小区域仍然会有大的失真！在纽约，失真已经是20%左右了。只有靠近赤道才可以。这就是UTM等预测存在的原因。我今天将查看它，看看我可以使用什么-从中检索，谢谢你的建议=）