Machine learning 可能导致更高分类精度的错误？_Machine Learning_Weka_Text Classification

Machine learning 可能导致更高分类精度的错误？

machine-learning

Machine learning 可能导致更高分类精度的错误？,machine-learning,weka,text-classification,Machine Learning,Weka,Text Classification,我使用20NewsGroup数据集进行文本分类，并使用20NewsGroup_ByDate数据集。我提取这里提供的带词干的文档我在weka中应用了tf-idf转换、信息增益特征选择和朴素贝叶斯分类。我的结果高于上面提到的页面上的结果（82%）。我想了很多,找了很多可能犯的错误,但也找不出一个我正在使用他们处理过的文件我只需要应用tf idf、IG和分类器。请提供我的见解，哪些可能的错误会导致比预期更高的准确性您是否根据提供的数据对其进行了培训，然后在相同的数据上进行了测试？@sashk

我使用20NewsGroup数据集进行文本分类，并使用20NewsGroup_ByDate数据集。我提取这里提供的带词干的文档

我在weka中应用了tf-idf转换、信息增益特征选择和朴素贝叶斯分类。我的结果高于上面提到的页面上的结果（82%）。我想了很多,找了很多可能犯的错误,但也找不出一个我正在使用他们处理过的文件

我只需要应用tf idf、IG和分类器。请提供我的见解，哪些可能的错误会导致比预期更高的准确性

您是否根据提供的数据对其进行了培训，然后在相同的数据上进行了测试？@sashkello否两个数据集在不同的目录中分开。我使用了最后一部分，比如20NG训练词干，用于训练分类器，20NG测试词干，用于测试分类器性能。您应用了特征选择，并使用了TF-IDF术语加权方案。这导致ish性能比报告的结果提高了1%，而报告的结果可能两者都没有。我想这就是你需要的全部解释（事实上，这是一个足够小的差异，我认为随机特征选择可能会导致相同的结论）@BenAllison，thanx为了通过，我也应用了这个选项，比如不应用tf idf和IG，但精确度仍然很高，即对于svm，它给了我99%的精确度。我尝试了一个选择，即不应用（跳过）所提供链接上提到的第1.5点，即“每个文档的标题/主题仅添加在文档文本的开头。”它使我的svm结果更接近链接上提供的结果，即80.9（svm约81%，其中提供的结果为82.8%）。我认为作者忽略了这一点。对——一个实现中有太多的参数（预处理、超参数等），在给定不完整信息的情况下，在%或%范围内听起来似乎是合理的