Machine learning 分类文本文件的训练和测试数据集

Machine learning 分类文本文件的训练和测试数据集,machine-learning,naivebayes,Machine Learning,Naivebayes,假设我们有10000个文本文件,我们想分类为政治、健康、天气、体育、科学、教育,。。。。。。。。。 我需要训练数据集对文本文档进行分类,我是朴素贝叶斯分类算法。任何人都可以帮助获取数据集。 或 有没有其他方法来完成分类1.我是机器学习新手,请完整地解释你的答案 例如: **Sentence** **Output** 1) 奥巴马赢得选举。----------------------------------

假设我们有10000个文本文件,我们想分类为政治、健康、天气、体育、科学、教育,。。。。。。。。。 我需要训练数据集对文本文档进行分类,我是朴素贝叶斯分类算法。任何人都可以帮助获取数据集。 或 有没有其他方法来完成分类1.我是机器学习新手,请完整地解释你的答案

例如:

     **Sentence**                                         **Output**
1) 奥巴马赢得选举。---------------------------------------------------->政治的

2) 印度队以10比10获胜------------------------------------------>体育

3) 烟草更危险------------------------------------>健康

4) 牛顿运动定律可以应用于汽车科学


有没有办法把这些句子分为各自的类别?你用谷歌搜索过吗?用于文本分类的数据集越来越多。经典的是Reuters-21578(),另一个著名的是,几乎在每本ML书中都提到了20个新闻组:


但是还有很多其他的,一个谷歌查询离你很远。只需加载它们,根据需要稍微调整,并在该数据集上训练分类器。

欢迎使用StackOverflow。请阅读并遵循帮助文档中的发布指南。适用于这里。我已经下载了路透社和20新闻组。但我的问题是我不知道如何在我的系统中使用它们。我的朴素贝叶斯分类器接受输入,我已经下载了路透社和20新闻组。但我的问题是我不知道如何在我的系统中使用它们。我的NaiveBayes分类器将输入作为trainingFiles.put(分类器名称,NaiveBayesExample.class.getResource(此处为文件名));好的--当你用你找到的一个文件训练一个模型时发生了什么?您已经有了文件名;选择你想要的分类器,指定它,然后打电话。hello prune,基本上是工作的,但作为弱分类器分类为娱乐的主要新闻。所以我想要一个涵盖从政治到健康的各种新闻类别的数据集