Python 使用TextBlob的朴素贝叶斯文本分类：当添加更多样本时，每个实例都预测为负值_Python_Machine Learning_Classification_Nltk_Textblob

Python 使用TextBlob的朴素贝叶斯文本分类：当添加更多样本时，每个实例都预测为负值

python machine-learning

Python 使用TextBlob的朴素贝叶斯文本分类：当添加更多样本时，每个实例都预测为负值,python,machine-learning,classification,nltk,textblob,Python,Machine Learning,Classification,Nltk,Textblob,我使用朴素贝叶斯模型将文档分类为正标签和负标签。对于大约72个文档大小的平衡数据集来说，它似乎工作得很好。但是，当我添加更多带否定标签的文档时，分类器将所有内容都预测为否定我将数据集分为80%的训练集和20%的测试集。添加更多带有负面标签的文档肯定会使数据集倾斜。是否是偏态使得分类器将每个测试文档预测为负值？我正在使用Navive Bayes模型的TextBlob/nltk实现有什么想法吗是的，可能是您的数据集对分类器产生了偏差。如果没有很强的信号告诉分类器选择哪个类，那么选择最流行的类（

我使用朴素贝叶斯模型将文档分类为正标签和负标签。对于大约72个文档大小的平衡数据集来说，它似乎工作得很好。但是，当我添加更多带否定标签的文档时，分类器将所有内容都预测为否定

我将数据集分为80%的训练集和20%的测试集。添加更多带有负面标签的文档肯定会使数据集倾斜。是否是偏态使得分类器将每个测试文档预测为负值？我正在使用Navive Bayes模型的TextBlob/nltk实现

有什么想法吗

是的，可能是您的数据集对分类器产生了偏差。如果没有很强的信号告诉分类器选择哪个类，那么选择最流行的类（在您的例子中是否定的）是有意义的。你试过绘制类分布与精度的对比图吗？另一件要尝试的事情是，这样你就不会碰巧画出一个有偏见的80-20分的训练测试。

是的，我有5分不同的班级分布。我观察到，当负面事件在我的训练数据集中占主导地位时，假阴性预测会增加。谢谢