Python 如何通过错误分析了解文本分类？_Python_Machine Learning_Nlp_Text Classification_Countvectorizer

Python 如何通过错误分析了解文本分类？

python machine-learning nlp

Python 如何通过错误分析了解文本分类？,python,machine-learning,nlp,text-classification,countvectorizer,Python,Machine Learning,Nlp,Text Classification,Countvectorizer,我在做方言的文本分类。我使用朴素贝叶斯分类器和计数向量器。我有很多错误分类的文本。是否有一种方法来分析这些错误，以找出分类错误的地方？例如，如果我可以知道哪些单词被用来将文本误分类为A，而它应该被分类为B，那么我可以从A的语料库中取出这些单词是否应该使用聚类切换到无监督学习？还是神经网络和深度学习？如果朴素贝叶斯分类器不起作用还有，我怎么知道countVectorizer是如何对文件进行分类的？以及他用来对文档进行分类的单词。分析错误取决于许多因素。你需要检查你正在做什么样的文本清理，你正在

我在做方言的文本分类。我使用朴素贝叶斯分类器和计数向量器。我有很多错误分类的文本。是否有一种方法来分析这些错误，以找出分类错误的地方？例如，如果我可以知道哪些单词被用来将文本误分类为A，而它应该被分类为B，那么我可以从A的语料库中取出这些单词

是否应该使用聚类切换到无监督学习？还是神经网络和深度学习？如果朴素贝叶斯分类器不起作用

还有，我怎么知道countVectorizer是如何对文件进行分类的？以及他用来对文档进行分类的单词。

分析错误取决于许多因素。你需要检查你正在做什么样的文本清理，你正在删除什么停止词，是否需要词干或柠檬化，等等。这并不是那么简单。也可以使用tfidf矢量器。您可以创建分类错误的记录列表，并检查分类错误的最频繁单词。如何检查分类错误的最频繁单词？将所有分类错误的评论作为字符串追加，然后使用

计数器

包重试