Python 2.7 如何使用scikit learn执行集成(多分类器)分类?

Python 2.7 如何使用scikit learn执行集成(多分类器)分类?,python-2.7,scikit-learn,document-classification,ensemble-learning,Python 2.7,Scikit Learn,Document Classification,Ensemble Learning,我有一个相当有限的数据集,我正在使用scikit学习执行监督学习、多类文本分类。为了稍微缓解信息的不足,我想做以下几点: 从我想要分类的内容中提取Ngram,将其与内容的Unigram合并并执行分类 实现(或使用现有实现)基于投票的集成分类器以提高分类精度。例如,多项式贝叶斯和KNN对于不同的类似乎都给出了很好的结果:理想情况下,我会将它们结合起来,这样我的性能会稍微好一点(希望不会更差),而不是使用有限的数据集得到的劣质的50% 虽然第一步很简单,但我找不到太多关于如何使用scikit lea

我有一个相当有限的数据集,我正在使用scikit学习执行监督学习、多类文本分类。为了稍微缓解信息的不足,我想做以下几点:

  • 从我想要分类的内容中提取Ngram,将其与内容的Unigram合并并执行分类

  • 实现(或使用现有实现)基于投票的集成分类器以提高分类精度。例如,多项式贝叶斯和KNN对于不同的类似乎都给出了很好的结果:理想情况下,我会将它们结合起来,这样我的性能会稍微好一点(希望不会更差),而不是使用有限的数据集得到的劣质的50%

  • 虽然第一步很简单,但我找不到太多关于如何使用scikit learn进行集成分类的信息。我注意到scikit learn有一些集成类的条目,比如一个,但它似乎不是我想要的


    有人知道使用scikit learn进行此操作的具体示例吗?

    我也很难回答这个问题。经过大量实验,我发现在sci工具包中进行集合分类的最佳方法是平均clf。预测每个训练模型的概率(X)值。平均值在长期内(运行50次或以上)表现优于任何单个模型

    如果你能保证你的一些训练模型比其他模型更强,你可能还想看看使用加权平均法或多武装的bandit集合方法


    我认为这不能在scikit learn中以本机方式完成。有几种方法可以组合多个分类器的输出。如果您发布一个预期输入和输出的示例,有人可以帮助您实现。