Algorithm 潜在语义索引（LSI）是一种统计分类算法吗？_Algorithm_Semantic Web_Information Retrieval_Classification

Algorithm 潜在语义索引（LSI）是一种统计分类算法吗？

algorithm

Algorithm 潜在语义索引（LSI）是一种统计分类算法吗？,algorithm,semantic-web,information-retrieval,classification,Algorithm,Semantic Web,Information Retrieval,Classification,潜在语义索引（LSI）是一种统计分类算法吗？为什么基本上，我想弄清楚为什么没有提到LSI。我刚开始研究这些东西，我想看看所有不同的分类方法是如何相互关联的。你读过吗？它说它使用矩阵分解（），而矩阵分解有时也用于分类。不，它们不太一样。统计分类旨在尽可能清晰地将项目划分为不同的类别——例如，对项目X是否更像a组或B组中的项目做出清晰的决定 LSI旨在显示项目的相似或不同程度，主要是查找与指定项目具有相似程度的项目。虽然这很相似，但并不完全相同。LSI/LSA最终是一种降维技术，通常与最近邻算法相

潜在语义索引（LSI）是一种统计分类算法吗？为什么

基本上，我想弄清楚为什么没有提到LSI。我刚开始研究这些东西，我想看看所有不同的分类方法是如何相互关联的。

你读过吗？它说它使用矩阵分解（），而矩阵分解有时也用于分类。

不，它们不太一样。统计分类旨在尽可能清晰地将项目划分为不同的类别——例如，对项目X是否更像a组或B组中的项目做出清晰的决定

LSI旨在显示项目的相似或不同程度，主要是查找与指定项目具有相似程度的项目。虽然这很相似，但并不完全相同。

LSI/LSA最终是一种降维技术，通常与最近邻算法相结合，使其成为一个分类系统。因此，就其本身而言，它只是使用SVD对低维数据进行“索引”的唯一方法。

机器学习的主要区别在于“有监督”和“无监督”建模

通常，“统计分类”一词指的是监督模型，但并不总是如此

使用有监督的方法，训练集包含一个“基本真理”标签，您可以构建模型进行预测。当您评估模型时，目标是预测真实标签的最佳猜测（或概率分布），而在评估时，您将无法获得真实标签。通常有一个性能指标，很清楚什么是对的，什么是错的

无监督分类方法试图将大量可能以复杂方式变化的数据点聚类为数量较少的“相似”类别。每个类别中的数据应该以某种“有趣”或“深刻”的方式相似。因为没有“基本事实”，你不能评估“对或错”，而是“多”与“少”有趣或有用

类似地，在评估时间内，您可以将新示例放入潜在的一个集群中（crisp分类），或者给出某种权重，量化集群的“原型”的相似或不同程度

因此，在某些方面，有监督和无监督模型可以产生“预测”，即类/簇标签的预测，但它们本质上是不同的

通常，无监督模型的目标是为后续的有监督模型提供更智能、更紧凑的输入