Python 使用TextBlob的朴素贝叶斯文本分类:当添加更多样本时,每个实例都预测为负值

Python 使用TextBlob的朴素贝叶斯文本分类:当添加更多样本时,每个实例都预测为负值,python,machine-learning,classification,nltk,textblob,Python,Machine Learning,Classification,Nltk,Textblob,我使用朴素贝叶斯模型将文档分类为正标签和负标签。对于大约72个文档大小的平衡数据集来说,它似乎工作得很好。但是,当我添加更多带否定标签的文档时,分类器将所有内容都预测为否定 我将数据集分为80%的训练集和20%的测试集。添加更多带有负面标签的文档肯定会使数据集倾斜。是否是偏态使得分类器将每个测试文档预测为负值?我正在使用Navive Bayes模型的TextBlob/nltk实现 有什么想法吗 是的,可能是您的数据集对分类器产生了偏差。如果没有很强的信号告诉分类器选择哪个类,那么选择最流行的类(

我使用朴素贝叶斯模型将文档分类为正标签和负标签。对于大约72个文档大小的平衡数据集来说,它似乎工作得很好。但是,当我添加更多带否定标签的文档时,分类器将所有内容都预测为否定

我将数据集分为80%的训练集和20%的测试集。添加更多带有负面标签的文档肯定会使数据集倾斜。是否是偏态使得分类器将每个测试文档预测为负值?我正在使用Navive Bayes模型的TextBlob/nltk实现


有什么想法吗

是的,可能是您的数据集对分类器产生了偏差。如果没有很强的信号告诉分类器选择哪个类,那么选择最流行的类(在您的例子中是否定的)是有意义的。你试过绘制类分布与精度的对比图吗?另一件要尝试的事情是,这样你就不会碰巧画出一个有偏见的80-20分的训练测试。

是的,我有5分不同的班级分布。我观察到,当负面事件在我的训练数据集中占主导地位时,假阴性预测会增加。谢谢