Algorithm 文本聚类的欧几里德距离与曼哈顿距离_Algorithm_Math_Cluster Analysis_Weka_Distance

Algorithm 文本聚类的欧几里德距离与曼哈顿距离

algorithm math

Algorithm 文本聚类的欧几里德距离与曼哈顿距离,algorithm,math,cluster-analysis,weka,distance,Algorithm,Math,Cluster Analysis,Weka,Distance,我正在使用Weka尝试不同的聚类算法。当我尝试使用欧几里德距离的SimpleKMeans算法时，我得到的错误分类实例更少，而当我尝试使用曼哈顿距离时，我得到的错误分类实例更多。文本聚类的最佳距离度量是什么？为什么？为什么我会得到非常不同的结果？我使用类来聚类评估聚类模式。假设采用一袋字的方法，曼哈顿距离更适合文档比较（虽然余弦距离通常是最好的方法），但K-均值是一种梯度下降算法，它假设成本函数是可微的，欧几里德距离就是这样，但曼哈顿距离不是这样。因此，即使欧几里德度量不是比较的最佳度量，但与曼哈

我正在使用Weka尝试不同的聚类算法。当我尝试使用欧几里德距离的SimpleKMeans算法时，我得到的错误分类实例更少，而当我尝试使用曼哈顿距离时，我得到的错误分类实例更多。文本聚类的最佳距离度量是什么？为什么？为什么我会得到非常不同的结果？我使用类来聚类评估聚类模式。

假设采用一袋字的方法，曼哈顿距离更适合文档比较（虽然余弦距离通常是最好的方法），但K-均值是一种梯度下降算法，它假设成本函数是可微的，欧几里德距离就是这样，但曼哈顿距离不是这样。因此，即使欧几里德度量不是比较的最佳度量，但与曼哈顿距离相比，使用欧几里德距离的K-均值可能会收敛到更好的解