Machine learning 朴素贝叶斯分类中的未知词

Machine learning 朴素贝叶斯分类中的未知词,machine-learning,smoothing,text-classification,Machine Learning,Smoothing,Text Classification,如何测试未知单词的文本分类问题?在训练一个模型时,我们可以使用平滑技术(拉普拉斯加法-1)来确保每个类中的任何单词都至少得到一个计数 那么,在测试阶段呢?如果一个单词没有出现在训练数据中,那么最好的处理方法是什么?简单地跳过它,或者给它加上一个1 谢谢你的建议和意见。具体来说,我使用的是朴素贝叶斯分类器 当你对一个实例进行分类时,想想发生了什么,如果你对一个看不见的特征进行加法-1平滑处理,那么你只需将一个非常小的概率(1/vocabSize)(或将一个非常小的概率的日志)乘以你的累积分数即可。

如何测试未知单词的文本分类问题?在训练一个模型时,我们可以使用平滑技术(拉普拉斯加法-1)来确保每个类中的任何单词都至少得到一个计数

那么,在测试阶段呢?如果一个单词没有出现在训练数据中,那么最好的处理方法是什么?简单地跳过它,或者给它加上一个1


谢谢你的建议和意见。具体来说,我使用的是朴素贝叶斯分类器

当你对一个实例进行分类时,想想发生了什么,如果你对一个看不见的特征进行加法-1平滑处理,那么你只需将一个非常小的概率(1/vocabSize)(或将一个非常小的概率的日志)乘以你的累积分数即可。如果您跳过了看不见的功能,则分数不会发生任何变化

因此,一般来说,测试数据中的一个看不见的特性不应该对分类决策产生影响-您对它一无所知,因为您在培训中没有看到它,所以在平滑的情况下,您应该乘以(或添加)相同的小(对数-)概率是指你每堂课的所有分数,或者你干脆忽略它


如果你不相信,就两个都试一下,看看是否有什么不同。

跳过就可以了。这三个词的总结是“忽略未知词”。