Python 分类文章的最佳分类器

Python 分类文章的最佳分类器,python,scikit-learn,Python,Scikit Learn,我目前正在使用scikit学习对新闻文章进行分类,我想知道应该使用哪个分类器。我有带标签数据的训练集,这使得这成为一个有监督的学习问题,一篇文章可以属于多个类别,比如金融和政治,这使得这是一个多标签的场景 我目前正在使用CountVectorizer进行预处理,然后使用带有多输出分类器的线性SVC来构建模型。我按照这里的流程图使用LinearSVC 但我不确定是否有更好的算法适合我的用例。对我的方法有什么意见吗?试试scikit learn的SGDClassizer,它将为您提供更多的建模选项,

我目前正在使用scikit学习对新闻文章进行分类,我想知道应该使用哪个分类器。我有带标签数据的训练集,这使得这成为一个有监督的学习问题,一篇文章可以属于多个类别,比如金融和政治,这使得这是一个多标签的场景

我目前正在使用CountVectorizer进行预处理,然后使用带有多输出分类器的线性SVC来构建模型。我按照这里的流程图使用LinearSVC


但我不确定是否有更好的算法适合我的用例。对我的方法有什么意见吗?

试试scikit learn的SGDClassizer,它将为您提供更多的建模选项,而且比LinearSVM更快


您应该使用OneVsRestclassifier,而不是multiOutputClassifier,因为您正在寻找多标签输出

“尝试tf idf和random forest可能是重复的。@mohammad我知道这个问题,但这个问题甚至不能让它正常工作。在我的例子中,我已经得到了我的多标签,但我只是想知道在我的用例中什么是更好的分类器。在您的标记问题中,对于使用哪种分类器,哪种分类器是我正在寻找的,没有任何争论。@polkovinkov.ph tf idf只是一个转换器,对吗?顺便说一句,如果我使用随机林,我还需要通过LinearSVC作为元估计吗?
classifier = MultiOutputClassifier(LinearSVC())