Text 新闻文章数据集

Text 新闻文章数据集,text,dataset,project,document-classification,Text,Dataset,Project,Document Classification,我正在做一个新闻分类的项目。基本上,该系统将根据预定义的主题(如体育、政治、国际)对新闻文章进行分类。为了构建这个系统,我需要免费的数据集来训练这个系统 到目前为止,经过几个小时的谷歌搜索和链接,我能找到的唯一合适的数据集是。虽然这已经足够了,但我想我会努力找到更多 请注意,我需要的数据集包括: 包含完整的新闻文章,而不仅仅是标题 它是用英语写的 以.txt格式,而不是XML或db格式 有人能帮我吗 您可以构建它,您可以编写一个Python/Perl/PHP脚本,在其中运行搜索,然后当您找到答案

我正在做一个新闻分类的项目。基本上,该系统将根据预定义的主题(如体育、政治、国际)对新闻文章进行分类。为了构建这个系统,我需要免费的数据集来训练这个系统

到目前为止,经过几个小时的谷歌搜索和链接,我能找到的唯一合适的数据集是。虽然这已经足够了,但我想我会努力找到更多

请注意,我需要的数据集包括:

  • 包含完整的新闻文章,而不仅仅是标题
  • 它是用英语写的
  • 以.txt格式,而不是XML或db格式

  • 有人能帮我吗

    您可以构建它,您可以编写一个Python/Perl/PHP脚本,在其中运行搜索,然后当您找到答案时,您可以使用regex隔离属性。。。我认为这是最好的选择。虽然不容易,但应该很有趣,最后您可以与我们共享此数据集。

    您尝试过使用吗?它是最常见的文本分类数据集。它是用SGML格式化的,但解析和转换为txt格式非常简单。

    是的,我正在尝试查找数据集,因为我将忙于项目,所以我尝试减少要做的事情。此外,我不知道如何用Python/Perl/PHP编写脚本。