Machine learning 朴素贝叶斯分类中的未知词_Machine Learning_Smoothing_Text Classification

Machine learning 朴素贝叶斯分类中的未知词

machine-learning

Machine learning 朴素贝叶斯分类中的未知词,machine-learning,smoothing,text-classification,Machine Learning,Smoothing,Text Classification,如何测试未知单词的文本分类问题？在训练一个模型时，我们可以使用平滑技术（拉普拉斯加法-1）来确保每个类中的任何单词都至少得到一个计数那么，在测试阶段呢？如果一个单词没有出现在训练数据中，那么最好的处理方法是什么？简单地跳过它，或者给它加上一个1 谢谢你的建议和意见。具体来说，我使用的是朴素贝叶斯分类器当你对一个实例进行分类时，想想发生了什么，如果你对一个看不见的特征进行加法-1平滑处理，那么你只需将一个非常小的概率（1/vocabSize）（或将一个非常小的概率的日志）乘以你的累积分数即可。

如何测试未知单词的文本分类问题？在训练一个模型时，我们可以使用平滑技术（拉普拉斯加法-1）来确保每个类中的任何单词都至少得到一个计数

那么，在测试阶段呢？如果一个单词没有出现在训练数据中，那么最好的处理方法是什么？简单地跳过它，或者给它加上一个1

谢谢你的建议和意见。具体来说，我使用的是朴素贝叶斯分类器

当你对一个实例进行分类时，想想发生了什么，如果你对一个看不见的特征进行加法-1平滑处理，那么你只需将一个非常小的概率（1/vocabSize）（或将一个非常小的概率的日志）乘以你的累积分数即可。如果您跳过了看不见的功能，则分数不会发生任何变化

因此，一般来说，测试数据中的一个看不见的特性不应该对分类决策产生影响-您对它一无所知，因为您在培训中没有看到它，所以在平滑的情况下，您应该乘以（或添加）相同的小（对数-）概率是指你每堂课的所有分数，或者你干脆忽略它

如果你不相信，就两个都试一下，看看是否有什么不同。

跳过就可以了。这三个词的总结是“忽略未知词”。