Text 从何处获取预先标记的新闻文章进行聚类算法

Text 从何处获取预先标记的新闻文章进行聚类算法,text,nlp,cluster-analysis,Text,Nlp,Cluster Analysis,我将要建立一个系统,该系统可以根据与在线新闻数据相关的事件对在线新闻数据进行聚类。为了检查结果是否正确,我需要一个标记为NewsDataSet的大型主题。对我来说,手动给它们贴标签几乎是不可能的。那么,有没有人可以分享一些建议,我怎样才能接触到这种类型的数据集?非常感谢您的帮助。是从新闻聚类、分类等开始的标准数据集。您可以将其用于实验。根据描述: 20个新闻组数据集是大约20000个新闻组文档的集合,这些文档在20个不同的新闻组之间(几乎)均匀地进行了分区。据我所知,它最初是由Ken Lang收

我将要建立一个系统,该系统可以根据与在线新闻数据相关的事件对在线新闻数据进行聚类。为了检查结果是否正确,我需要一个标记为NewsDataSet的大型主题。对我来说,手动给它们贴标签几乎是不可能的。那么,有没有人可以分享一些建议,我怎样才能接触到这种类型的数据集?非常感谢您的帮助。

是从新闻聚类、分类等开始的标准数据集。您可以将其用于实验。根据描述:

20个新闻组数据集是大约20000个新闻组文档的集合,这些文档在20个不同的新闻组之间(几乎)均匀地进行了分区。据我所知,它最初是由Ken Lang收集的,可能是为了他的Newsweeder:Learning To filter netnews paper,尽管他没有明确提到这个收集。20个新闻组集合已经成为一个流行的数据集,用于机器学习技术的文本应用实验,如文本分类和文本聚类


非常感谢,我以前下载过这个数据集。但是我不能使用这个数据集的原因是我需要应用基于事件的集群,这要求数据集必须由它们所描述的核心事件进行预标记。如果有任何方法,我可以获得非常有用的新闻数据。