Algorithm 文本聚类的欧几里德距离与曼哈顿距离

Algorithm 文本聚类的欧几里德距离与曼哈顿距离,algorithm,math,cluster-analysis,weka,distance,Algorithm,Math,Cluster Analysis,Weka,Distance,我正在使用Weka尝试不同的聚类算法。当我尝试使用欧几里德距离的SimpleKMeans算法时,我得到的错误分类实例更少,而当我尝试使用曼哈顿距离时,我得到的错误分类实例更多。文本聚类的最佳距离度量是什么?为什么?为什么我会得到非常不同的结果?我使用类来聚类评估聚类模式。假设采用一袋字的方法,曼哈顿距离更适合文档比较(虽然余弦距离通常是最好的方法),但K-均值是一种梯度下降算法,它假设成本函数是可微的,欧几里德距离就是这样,但曼哈顿距离不是这样。因此,即使欧几里德度量不是比较的最佳度量,但与曼哈

我正在使用Weka尝试不同的聚类算法。当我尝试使用欧几里德距离的SimpleKMeans算法时,我得到的错误分类实例更少,而当我尝试使用曼哈顿距离时,我得到的错误分类实例更多。文本聚类的最佳距离度量是什么?为什么?为什么我会得到非常不同的结果?我使用类来聚类评估聚类模式。

假设采用一袋字的方法,曼哈顿距离更适合文档比较(虽然余弦距离通常是最好的方法),但K-均值是一种梯度下降算法,它假设成本函数是可微的,欧几里德距离就是这样,但曼哈顿距离不是这样。因此,即使欧几里德度量不是比较的最佳度量,但与曼哈顿距离相比,使用欧几里德距离的K-均值可能会收敛到更好的解