Machine learning 新闻文章的聚类

Machine learning 新闻文章的聚类,machine-learning,nlp,cluster-analysis,information-retrieval,unsupervised-learning,Machine Learning,Nlp,Cluster Analysis,Information Retrieval,Unsupervised Learning,我的情况非常简单:我有一大堆新闻文章(目前约1k篇),我知道其中一些报道了相同的故事/主题。我现在想根据共享的故事/主题,即根据它们的相似性,对这些文章进行分组 到目前为止,我所做的是应用基本的NLP技术,包括停止字删除和词干生成。我还计算了每篇文章的tf-idf向量,并且使用它还可以计算基于这些tf-idf向量的余弦相似性。但现在,随着文章的分组,我有点挣扎。我认为有两种主要的方法——可能是相关的——可以做到这一点: 1) 机器学习/集群:我已经对现有的集群库做了一些研究,或多或少取得了成功;

我的情况非常简单:我有一大堆新闻文章(目前约1k篇),我知道其中一些报道了相同的故事/主题。我现在想根据共享的故事/主题,即根据它们的相似性,对这些文章进行分组

到目前为止,我所做的是应用基本的NLP技术,包括停止字删除和词干生成。我还计算了每篇文章的tf-idf向量,并且使用它还可以计算基于这些tf-idf向量的余弦相似性。但现在,随着文章的分组,我有点挣扎。我认为有两种主要的方法——可能是相关的——可以做到这一点:

1) 机器学习/集群:我已经对现有的集群库做了一些研究,或多或少取得了成功;看见一方面,像k-means这样的算法需要集群的数量作为输入,我不知道。其他算法需要的参数也不能直观地指定(对我来说就是这样)

2) 图算法:我可以将我的数据表示为一个图,文章是节点,加权adge表示文章之间的成对(余弦)相似性。例如,有了它,我可以首先删除低于某个阈值的所有边,然后应用图算法寻找强连通子图

简言之,我不知道从这里开始最好的方向是什么——我在这个领域还是个新手。我想知道是否有一些最佳实践,或者某种方法/算法可以(不)应用于某些场景的指导方针


(编辑:忘记链接到我的相关问题)

尝试一类具有单一和完整链接的层次聚集聚类算法

这些算法不需要将簇的数目作为输入


基本原理类似于在给定的一组数据点上生长最小生成树,然后根据阈值标准停止。一个密切相关的类是分裂聚类算法,它首先建立最小生成树,然后根据簇间相似性比率修剪树的一个分支

您还可以尝试k-means上的树冠变化,以相对快速地估计簇数(k)


你会随着时间的推移重新计算还是只关心一组静态的新闻?我这样问是因为你的k可能会随着时间的推移而发生一些变化。

因为你可以将数据集建模为一个图形,你可以应用基于马尔可夫模型的随机聚类。以下是有关MCL算法的资源链接:


我认为没有一种“最佳方式”可以完成这项任务;事实上,从你提出问题的方式来看,你可能会应用几十种不同的算法,并获得定性相似的结果。你读了吗?是的,我开始读关于相似性度量,(无监督)学习/聚类和相关主题的书。但同时,我也想尝试一些东西——你知道,“在做中学习”或者如果是“在燃烧/失败中学习”。我不指望有最好的办法。但这似乎是一项相当普通的任务,我希望找到一些最佳实践方法。我真的很想知道你是如何对你的数据集进行聚类的,因为我有一套简历,我想对它们进行聚类和分类,而且我对这个领域非常陌生。我如何与你联系抱歉,因为我不在这里回答,但你是我最后的希望?抱歉again@Abeerzaroor“看看我的这张照片吧最小,现在工作的例子。它本质上只是一个更详细的示例的简化版本。这两个链接应该可以帮助你开始滚动。迪巴西斯,我会调查的!有没有现成的工具或库我可以用来实现一些最初的想法?你可以使用Weka。。它具有HAC的单链路和完整链路实现。。。目前,我只是在尝试使用脱离外壳的算法/库,以了解这些东西是如何工作的以及预期的结果。但你是对的,从长远来看,文档集将是动态的。我已经开始阅读关于集群算法的增量解决方案。这看起来很有趣,谢谢!我安装了Gephi插件,并将其应用于一些样本数据。Christian,我很想了解更多关于你的实验以及基于图形的方法和其他方法的结果的信息。