Machine learning 使用朴素贝叶斯预测分类并处理不在训练集中的特征/单词
用朴素贝叶斯算法研究垃圾邮件与非垃圾邮件的文本分类问题 问题如下: 如果在一组单词中,你看到了一个模型根本没有看到的新单词wordX(因此你甚至没有估计它的拉普拉斯平滑概率),你如何对文档进行预测 通常的做法是忽略wordX,尽管它出现在当前文本中,因为它没有与之相关的可能性?也就是说,我知道有时候拉普拉斯平滑法被用来解决这个问题,但是如果这个词是全新的呢 我想到的一些解决方案: 1) 在评估分类时忽略这个词(最简单,但有时是错误的…?,但是,如果训练集足够大,这可能是最好的做法,因为我认为如果你有1百万或2000万的数据,那么假设你的特征和内容被选得足够好是合理的) 2) 将该词添加到您的模型中,并完全更改您的模型,因为词汇发生了变化,所以概率必须在任何地方都发生变化(但这确实存在问题,因为这可能意味着您必须频繁更新模型,特别是如果您的分析文档 我对此做了一些研究,阅读了Dan Jurafsky NLP和NB的一些幻灯片,观看了coursera上的一些视频,浏览了一些研究论文,但我没有找到有用的东西。我觉得这个问题一点也不新鲜,应该有一些东西(启发性的…?)存在。如果没有,知道这一点也太棒了 希望这是一个对社区有用的帖子,并提前表示感谢 PS:为了让这个问题更明确一点,我看到的一个解决方案是,假设我们在垃圾邮件中看到一个未知的新词wordX,那么对于这个词,我们可以做1/count(垃圾邮件)+词汇+1,这样做的问题是,那么,这是否意味着我们改变了词汇的大小,现在,我们分类的每个新文档都有一个新的特征和词汇?这段视频似乎试图解决这个问题,但我不确定这是一件好事还是2,也许我误解了:Machine learning 使用朴素贝叶斯预测分类并处理不在训练集中的特征/单词,machine-learning,nlp,bayesian,supervised-learning,text-classification,Machine Learning,Nlp,Bayesian,Supervised Learning,Text Classification,用朴素贝叶斯算法研究垃圾邮件与非垃圾邮件的文本分类问题 问题如下: 如果在一组单词中,你看到了一个模型根本没有看到的新单词wordX(因此你甚至没有估计它的拉普拉斯平滑概率),你如何对文档进行预测 通常的做法是忽略wordX,尽管它出现在当前文本中,因为它没有与之相关的可能性?也就是说,我知道有时候拉普拉斯平滑法被用来解决这个问题,但是如果这个词是全新的呢 我想到的一些解决方案: 1) 在评估分类时忽略这个词(最简单,但有时是错误的…?,但是,如果训练集足够大,这可能是最好的做法,因为我认为如果
从实用的角度(请记住,这并不是您所要求的全部),我建议使用以下框架: