Python 如何估计分类器在测试数据上的性能？_Python_Machine Learning_Scikit Learn

Python 如何估计分类器在测试数据上的性能？

python machine-learning scikit-learn

Python 如何估计分类器在测试数据上的性能？,python,machine-learning,scikit-learn,Python,Machine Learning,Scikit Learn,我正在使用scikit制作一个有监督的分类器，目前我正在对其进行调整，以便在标记的数据上提供良好的准确性。但是我如何估计它在测试数据（未标记）上的表现呢另外，我如何发现我是否开始过度拟合分类器？您不能对未标记数据的方法进行评分，因为您需要知道正确的答案。为了评估一种方法，您应该将车组分为（新的）列车和测试（例如，通过）。然后将模型装配到列车上，并在测试中打分。若你们并没有太多的数据，而保留其中的一些数据可能会对算法的性能产生负面影响，那个么使用由于过度拟合无法概括，所以测试分数低是一个很好

我正在使用scikit制作一个有监督的分类器，目前我正在对其进行调整，以便在标记的数据上提供良好的准确性。但是我如何估计它在测试数据（未标记）上的表现呢

另外，我如何发现我是否开始过度拟合分类器？

您不能对未标记数据的方法进行评分，因为您需要知道正确的答案。为了评估一种方法，您应该将车组分为（新的）列车和测试（例如，通过）。然后将模型装配到列车上，并在测试中打分。若你们并没有太多的数据，而保留其中的一些数据可能会对算法的性能产生负面影响，那个么使用

由于过度拟合无法概括，所以测试分数低是一个很好的指标

有关更多理论和其他一些方法，请查看。

使用分类器的

评分方法，或sklearn.metrics
中的一个性能指标。另请参阅教程和示例。我正在使用cross_val_score
和参数scoring='f1'
测试分类器，但它表示一些真阳性和假阳性的总和等于零。这是不是因为我的一些班级比其他班级的规模小？默认情况下，是否应该启用分层选项以防止出现这种情况？