Nlp 用训练好的K-均值模型预测未知数据的正确聚类

Nlp 用训练好的K-均值模型预测未知数据的正确聚类,nlp,cluster-analysis,k-means,svd,unsupervised-learning,Nlp,Cluster Analysis,K Means,Svd,Unsupervised Learning,我知道K-Means是一个懒惰的学习者,必须从头开始用新的点进行再培训,但我仍然想知道是否有任何解决方法,可以使用经过培训的模型预测新的看不见的数据 我正在使用K-Means算法对医学语料库进行聚类。我正在创建一个术语文档矩阵来表示这个语料库。在将数据提供给kmeans算法之前,我对数据执行截断奇异值分解以进行降维。我一直在想,是否有一种方法可以在不重新训练整个模型的情况下对一个新的看不见的文档进行集群 为了获得新文档的向量表示并使用经过训练的模型预测其集群,我需要确保它与经过训练的模型具有相同

我知道K-Means是一个懒惰的学习者,必须从头开始用新的点进行再培训,但我仍然想知道是否有任何解决方法,可以使用经过培训的模型预测新的看不见的数据

我正在使用K-Means算法对医学语料库进行聚类。我正在创建一个术语文档矩阵来表示这个语料库。在将数据提供给kmeans算法之前,我对数据执行截断奇异值分解以进行降维。我一直在想,是否有一种方法可以在不重新训练整个模型的情况下对一个新的看不见的文档进行集群

为了获得新文档的向量表示并使用经过训练的模型预测其集群,我需要确保它与经过训练的模型具有相同的词汇表,并且在术语文档矩阵中保持相同的顺序。考虑到这些文档具有类似的词汇表,可以这样做。但是,如何获得此文档的SVD表示?现在我的理解有点动摇了,所以如果我错了,请纠正我,但是要对这个向量表示执行SVD,我需要将它附加到原始术语文档矩阵中。现在,如果我将这个新文档附加到原始术语文档矩阵中,并对其执行SVD,以获得具有有限特征的向量表示(在本例中为100),那么我不确定情况将如何改变?SVD选择的新功能在语义上是否与原始功能一致?i、 e.如果相应的特征掌握了不同的概念,那么测量新文档与簇质心(具有100个特征)的距离就没有意义了


有没有一种方法可以使用经过训练的kmeans模型来处理新的文本数据?或者任何其他更适合此任务的聚类方法?

您的问题不是k-means,一个简单的最近邻分类器,使用该方法作为数据将起作用


您的问题是SVD,它不稳定。添加新数据可能会得到完全不同的结果。

我正在尝试进行无监督学习,所以我想最近邻法不起作用。如果我弄错了,请纠正我。另外,若SVD不稳定,你们能推荐一个在稳定的同时也能产生同样好结果的替代方案吗?最近邻法效果很好,仔细想想!这些标签来自k-means,它们是“无监督的”。至于SVD,我相信有一些方法可以近似估计新数据点wrt的位置。现有的分解。但您可能必须自己实现这一点。但是LDA可能更容易。你能解释一下如何近似新数据点wrt的位置吗。现有的分解。任何相关的文章/博客/帖子都将不胜感激。我相信我已经看到了,但我不知道在哪里,对不起。