Machine learning 可能导致更高分类精度的错误?

Machine learning 可能导致更高分类精度的错误?,machine-learning,weka,text-classification,Machine Learning,Weka,Text Classification,我使用20NewsGroup数据集进行文本分类,并使用20NewsGroup_ByDate数据集。我提取这里提供的带词干的文档 我在weka中应用了tf-idf转换、信息增益特征选择和朴素贝叶斯分类。我的结果高于上面提到的页面上的结果(82%)。我想了很多,找了很多可能犯的错误,但也找不出一个 我正在使用他们处理过的文件 我只需要应用tf idf、IG和分类器。请提供我的见解,哪些可能的错误会导致比预期更高的准确性 您是否根据提供的数据对其进行了培训,然后在相同的数据上进行了测试?@sashk

我使用20NewsGroup数据集进行文本分类,并使用20NewsGroup_ByDate数据集。我提取这里提供的带词干的文档

我在weka中应用了tf-idf转换、信息增益特征选择和朴素贝叶斯分类。我的结果高于上面提到的页面上的结果(82%)。我想了很多,找了很多可能犯的错误,但也找不出一个 我正在使用他们处理过的文件


我只需要应用tf idf、IG和分类器。请提供我的见解,哪些可能的错误会导致比预期更高的准确性

您是否根据提供的数据对其进行了培训,然后在相同的数据上进行了测试?@sashkello否两个数据集在不同的目录中分开。我使用了最后一部分,比如20NG训练词干,用于训练分类器,20NG测试词干,用于测试分类器性能。您应用了特征选择,并使用了TF-IDF术语加权方案。这导致ish性能比报告的结果提高了1%,而报告的结果可能两者都没有。我想这就是你需要的全部解释(事实上,这是一个足够小的差异,我认为随机特征选择可能会导致相同的结论)@BenAllison,thanx为了通过,我也应用了这个选项,比如不应用tf idf和IG,但精确度仍然很高,即对于svm,它给了我99%的精确度。我尝试了一个选择,即不应用(跳过)所提供链接上提到的第1.5点,即“每个文档的标题/主题仅添加在文档文本的开头。”它使我的svm结果更接近链接上提供的结果,即80.9(svm约81%,其中提供的结果为82.8%)。我认为作者忽略了这一点。对——一个实现中有太多的参数(预处理、超参数等),在给定不完整信息的情况下,在%或%范围内听起来似乎是合理的