Machine learning 调整后的兰德指数（ARI）_Machine Learning

Machine learning 调整后的兰德指数（ARI）

machine-learning

Machine learning 调整后的兰德指数（ARI）,machine-learning,Machine Learning,为什么在聚类方法中使用调整后的rand指数（ARI）和归一化互信息（NMI）比简单的测试分数（如MSE）能得到更好的测量结果？我知道在聚类算法中，哪个点属于哪个簇是很重要的，而标记是任意的您自己回答-聚类没有“MSE”，因为只有在您知道依赖变量的值时才定义MSE。在聚类中，它不仅是任意分配的，甚至没有“数字”的概念，而且MSE是回归度量，它对数字而不是类进行操作。现在，为什么不通过简单地计算所有可能的标签排列来使用精确性呢？这（几乎）就是RandIndex，尽管它起源于不同的社会，有不同的名

为什么在聚类方法中使用调整后的rand指数（ARI）和归一化互信息（NMI）比简单的测试分数（如MSE）能得到更好的测量结果？

我知道在聚类算法中，哪个点属于哪个簇是很重要的，而标记是任意的

您自己回答-聚类没有“MSE”，因为只有在您知道依赖变量的值时才定义MSE。在聚类中，它不仅是任意分配的，甚至没有“数字”的概念，而且MSE是回归度量，它对数字而不是类进行操作。现在，为什么不通过简单地计算所有可能的标签排列来使用精确性呢？这（几乎）就是RandIndex，尽管它起源于不同的社会，有不同的名称，但它与集群和标签之间的映射关系非常密切。那么什么是调整后的兰德指数？除了RandIndex/（几乎）准确度之外，没有什么可以告诉您完全随机分类器的行为。因此，它实际上是由随机分类器的精度标准化的精度度量的转换
这些“小差异”只是考虑到一个事实，即集群具有一些额外的属性，如：

簇（标签）的数量不是预先给定的

您需要对琐碎模型进行更正，这可能很难理解（对于分类来说，通常很容易说出琐碎模型的准确度）

特别是第一部分，考虑聚类：

clustering [o o o o][o o o o][o o o o ] truth [o o o o o o o o][o o o o ]
唯一发生的“坏事”是我们把一个类分成了两部分。如果我们使用准确度，我们得到75%（因为一半被简单地认为是“坏的”），但如果我们考虑到兰德指数，它实际上会比以下的分数高得多：

clustering [o][o][o][o][o o o o][o o o o ] truth [o o o o o o o o][o o o o ]
准确率为75%。我认为第一个集群确实比第二个好

换句话说，这些度量与经典分类度量密切相关，它们只是引入了额外的风格来区分（主要是）具有不同数量集群的集群。这里的主要原因是，在集群中，您关心的是结构，而不是点式标签
您自己回答-聚类没有“MSE”，因为只有在您知道依赖变量的值时才定义MSE。在聚类中，它不仅是任意分配的，甚至没有“数字”的概念，而且MSE是回归度量，它对数字而不是类进行操作。现在，为什么不通过简单地计算所有可能的标签排列来使用精确性呢？这（几乎）就是RandIndex，尽管它起源于不同的社会，有不同的名称，但它与集群和标签之间的映射关系非常密切。那么什么是调整后的兰德指数？除了RandIndex/（几乎）准确度之外，没有什么可以告诉您完全随机分类器的行为。因此，它实际上是由随机分类器的精度标准化的精度度量的转换
这些“小差异”只是考虑到一个事实，即集群具有一些额外的属性，如：

簇（标签）的数量不是预先给定的

您需要对琐碎模型进行更正，这可能很难理解（对于分类来说，通常很容易说出琐碎模型的准确度）

特别是第一部分，考虑聚类：

clustering [o o o o][o o o o][o o o o ] truth [o o o o o o o o][o o o o ]
唯一发生的“坏事”是我们把一个类分成了两部分。如果我们使用准确度，我们得到75%（因为一半被简单地认为是“坏的”），但如果我们考虑到兰德指数，它实际上会比以下的分数高得多：

clustering [o][o][o][o][o o o o][o o o o ] truth [o o o o o o o o][o o o o ]
准确率为75%。我认为第一个集群确实比第二个好

换句话说，这些度量与经典分类度量密切相关，它们只是引入了额外的风格来区分（主要是）具有不同数量集群的集群。这里的主要原因是，在集群中，您关心的是结构，而不是点式标签
谢谢你的解释。谢谢你的解释。