Python 如何通过错误分析了解文本分类?

Python 如何通过错误分析了解文本分类?,python,machine-learning,nlp,text-classification,countvectorizer,Python,Machine Learning,Nlp,Text Classification,Countvectorizer,我在做方言的文本分类。我使用朴素贝叶斯分类器和计数向量器。我有很多错误分类的文本。是否有一种方法来分析这些错误,以找出分类错误的地方?例如,如果我可以知道哪些单词被用来将文本误分类为A,而它应该被分类为B,那么我可以从A的语料库中取出这些单词 是否应该使用聚类切换到无监督学习?还是神经网络和深度学习?如果朴素贝叶斯分类器不起作用 还有,我怎么知道countVectorizer是如何对文件进行分类的?以及他用来对文档进行分类的单词。分析错误取决于许多因素。你需要检查你正在做什么样的文本清理,你正在

我在做方言的文本分类。我使用朴素贝叶斯分类器和计数向量器。我有很多错误分类的文本。是否有一种方法来分析这些错误,以找出分类错误的地方?例如,如果我可以知道哪些单词被用来将文本误分类为A,而它应该被分类为B,那么我可以从A的语料库中取出这些单词

是否应该使用聚类切换到无监督学习?还是神经网络和深度学习?如果朴素贝叶斯分类器不起作用


还有,我怎么知道countVectorizer是如何对文件进行分类的?以及他用来对文档进行分类的单词。

分析错误取决于许多因素。你需要检查你正在做什么样的文本清理,你正在删除什么停止词,是否需要词干或柠檬化,等等。这并不是那么简单。也可以使用tfidf矢量器。您可以创建分类错误的记录列表,并检查分类错误的最频繁单词。如何检查分类错误的最频繁单词?将所有分类错误的评论作为字符串追加,然后使用
计数器
包重试