Nlp 文本分类:Naï;具有倾斜数据分布的ve-Bayes分类器

Nlp 文本分类:Naï;具有倾斜数据分布的ve-Bayes分类器,nlp,data-mining,text-classification,naivebayes,Nlp,Data Mining,Text Classification,Naivebayes,我有一个关于训练和测试数据的数据分布偏斜的朴素贝叶斯分类器的问题 培训数据有90%的垃圾邮件和10%的非垃圾邮件 测试数据有80%的非垃圾邮件和20%的垃圾邮件 对于训练数据的决策函数,使用MLE(最大似然)比MAP(标准最大后验概率)更好吗 我的理解是,由于训练数据和测试数据的分布不同,如果我们使用最大后验概率,那么测试结果将偏向垃圾邮件类,因此MLE更好。我的理解正确吗 在实践中,忽略任何先验概率和大多数术语,并且只使用10个最强的正信号和负信号似乎很常见。不是因为理论,而是因为它更有效

我有一个关于训练和测试数据的数据分布偏斜的朴素贝叶斯分类器的问题

  • 培训数据有90%的垃圾邮件和10%的非垃圾邮件
  • 测试数据有80%的非垃圾邮件和20%的垃圾邮件
对于训练数据的决策函数,使用MLE(最大似然)比MAP(标准最大后验概率)更好吗


我的理解是,由于训练数据和测试数据的分布不同,如果我们使用最大后验概率,那么测试结果将偏向垃圾邮件类,因此MLE更好。我的理解正确吗

在实践中,忽略任何先验概率和大多数术语,并且只使用10个最强的正信号和负信号似乎很常见。不是因为理论,而是因为它更有效。不要像@Anony mouse建议的那样做。当然,根据我在文本分类方面的经验,您可以忽略先验信息并保留一些信号(相反,除了琐碎的任务外,您通常需要数千个特征)。我认为问题是:哪一套更能反映现实:训练集,还是测试集?有什么原因不能让两个集合都反映使用分类器时将遇到的真实分布?因为我看到的一个潜在问题是不正确的数据采样,其后果超出了先验计算