Python kmodes与一个热编码&x2B;分类数据的kmeans?
我正在探索用python对一些分类数据进行集群的可能性。我目前有8个功能,每个功能大约有3-10个级别 正如我所理解的,kmeans是一种热编码,并且可以在这个框架中使用,由于维度问题的诅咒,kmeans对于功能/级别的巨大组合可能并不理想 这是正确的吗 目前,我将遵循kmeans路线,因为这将使我能够灵活地加入一些数字特征,计算轮廓统计和评估最佳集群数量似乎要容易得多 这有意义吗?对于哪种情况下,一种方法比另一种更可取,您有什么建议吗Python kmodes与一个热编码&x2B;分类数据的kmeans?,python,cluster-analysis,k-means,Python,Cluster Analysis,K Means,我正在探索用python对一些分类数据进行集群的可能性。我目前有8个功能,每个功能大约有3-10个级别 正如我所理解的,kmeans是一种热编码,并且可以在这个框架中使用,由于维度问题的诅咒,kmeans对于功能/级别的巨大组合可能并不理想 这是正确的吗 目前,我将遵循kmeans路线,因为这将使我能够灵活地加入一些数字特征,计算轮廓统计和评估最佳集群数量似乎要容易得多 这有意义吗?对于哪种情况下,一种方法比另一种更可取,您有什么建议吗 感谢还有一些变体在分类属性上使用k模式方法,在连续属性上使
感谢还有一些变体在分类属性上使用k模式方法,在连续属性上使用平均值
与热+K-方法相比,K-模式有一个很大的优势:它是可解释的。每个集群对于原型都有一个明确的分类值。对于k-均值,由于SSQ目标,如果一个热变量在两个值之间,则误差最小。这是不可取的。参考黄(Kmodes作者)的这篇论文