Text Nltk分类-朴素贝叶斯显示令人难以置信的精度为0.996

Text Nltk分类-朴素贝叶斯显示令人难以置信的精度为0.996,text,classification,text-classification,Text,Classification,Text Classification,我面临着一个奇怪的问题。我使用nltk.classify中的NaiveBayesClassifier对文本进行分类,我的问题是它显示了令人难以置信的精度0.9966。我确信这不可能是真的,但我在代码中没有看到任何错误。我的输入量很大,4万句用于培训,8万句用于测试 我正在构建一套由所有带负/正/中性标签的培训文本组成的培训功能 trainFeats = negFeats + posFeats + neutralFeats testFeats = negFeats + posFeats

我面临着一个奇怪的问题。我使用nltk.classify中的NaiveBayesClassifier对文本进行分类,我的问题是它显示了令人难以置信的精度0.9966。我确信这不可能是真的,但我在代码中没有看到任何错误。我的输入量很大,4万句用于培训,8万句用于测试

我正在构建一套由所有带负/正/中性标签的培训文本组成的培训功能

  trainFeats = negFeats + posFeats + neutralFeats
  testFeats = negFeats + posFeats + neutralFeats
以及一组由所有负/正/中性标记的训练文本组成的测试特征

  trainFeats = negFeats + posFeats + neutralFeats
  testFeats = negFeats + posFeats + neutralFeats
之后,我在trainFeats上训练分类器

  classifier = NaiveBayesClassifier.train(trainFeats)
并在所有的测试中进行测试

  print 'accuracy:', nltk.classify.util.accuracy(classifier, testFeats) 

这是正常的结果吗?我应该想当然吗?因为它表现得非常好。谢谢

您的问题非常模糊,因为我们不知道您的输入,也不知道您的代码。@SpaceTrucker我编辑了我的问题,希望现在问题更清楚。那么您使用相同的数据进行培训/测试吗?@qqilihq不,这是不同的数据。如果没有看到您的代码,很难说问题出在哪里。您是否使用与测试相同的数据进行培训?如果是这样的话,这是一个典型的超额收入案例。