Machine learning 分类文本文件的训练和测试数据集_Machine Learning_Naivebayes

Machine learning 分类文本文件的训练和测试数据集

machine-learning

Machine learning 分类文本文件的训练和测试数据集,machine-learning,naivebayes,Machine Learning,Naivebayes,假设我们有10000个文本文件，我们想分类为政治、健康、天气、体育、科学、教育，。。。。。。。。。我需要训练数据集对文本文档进行分类，我是朴素贝叶斯分类算法。任何人都可以帮助获取数据集。或有没有其他方法来完成分类1.我是机器学习新手，请完整地解释你的答案例如： **Sentence** **Output** 1）奥巴马赢得选举。----------------------------------

假设我们有10000个文本文件，我们想分类为政治、健康、天气、体育、科学、教育，。。。。。。。。。我需要训练数据集对文本文档进行分类，我是朴素贝叶斯分类算法。任何人都可以帮助获取数据集。或有没有其他方法来完成分类1.我是机器学习新手，请完整地解释你的答案

例如：

     **Sentence**                                         **Output**

1）奥巴马赢得选举。---------------------------------------------------->政治的

2）印度队以10比10获胜------------------------------------------>体育

3）烟草更危险------------------------------------>健康

4）牛顿运动定律可以应用于汽车科学

有没有办法把这些句子分为各自的类别？你用谷歌搜索过吗？用于文本分类的数据集越来越多。经典的是Reuters-21578（），另一个著名的是，几乎在每本ML书中都提到了20个新闻组：

但是还有很多其他的，一个谷歌查询离你很远。只需加载它们，根据需要稍微调整，并在该数据集上训练分类器。

欢迎使用StackOverflow。请阅读并遵循帮助文档中的发布指南。适用于这里。我已经下载了路透社和20新闻组。但我的问题是我不知道如何在我的系统中使用它们。我的朴素贝叶斯分类器接受输入，我已经下载了路透社和20新闻组。但我的问题是我不知道如何在我的系统中使用它们。我的NaiveBayes分类器将输入作为trainingFiles.put（分类器名称，NaiveBayesExample.class.getResource（此处为文件名））；好的--当你用你找到的一个文件训练一个模型时发生了什么？您已经有了文件名；选择你想要的分类器，指定它，然后打电话。hello prune，基本上是工作的，但作为弱分类器分类为娱乐的主要新闻。所以我想要一个涵盖从政治到健康的各种新闻类别的数据集