Python 3.x 总数据集培训是否提高了信心分数_Python 3.x_Machine Learning_Scikit Learn

Python 3.x 总数据集培训是否提高了信心分数

python-3.x machine-learning scikit-learn

Python 3.x 总数据集培训是否提高了信心分数,python-3.x,machine-learning,scikit-learn,Python 3.x,Machine Learning,Scikit Learn,我在多类分类中使用SVC（kernel=“linear”，probability=True）。当我将三分之二的数据用于训练时，我得到了约72%。当我试图在生产中预测时，我得到的信心分数非常少。对总数据集进行培训是否有助于提高信心分数对总数据集进行培训是否有助于提高信心分数可能吧。一般来说，数据越多越好。但是，应在模型以前未见过的数据上进行性能评估。一种方法是像您所做的那样，留出一部分数据，一个测试集。另一种方法是使用交叉验证，见下文当我试图在生产中预测时，我得到的信心分数非常少这意味着您

我在多类分类中使用SVC（kernel=“linear”，probability=True）。当我将三分之二的数据用于训练时，我得到了约72%。当我试图在生产中预测时，我得到的信心分数非常少。对总数据集进行培训是否有助于提高信心分数

对总数据集进行培训是否有助于提高信心分数

可能吧。一般来说，数据越多越好。但是，应在模型以前未见过的数据上进行性能评估。一种方法是像您所做的那样，留出一部分数据，一个测试集。另一种方法是使用交叉验证，见下文

当我试图在生产中预测时，我得到的信心分数非常少

这意味着您的模型不能很好地推广。换句话说，当呈现数据时，在模型开始做出或多或少的随机预测之前，它从未见过

为了更好地了解模型的通用性，您可能需要使用：

这将使用完整数据的折叠在完整数据集上训练和评估分类器。对分类器的每次分割进行折叠，并在数据的一个排他子集上进行训练和验证。对于每个分割，

得分

结果包含验证得分（对于SVC，精度）。如果您需要对要评估的指标进行更多控制，请使用该函数

生产预测

为了提高模型的性能，需要考虑以下几种方法：

使用更多的培训数据
使用一种方法来减少预测方差
使用不同的模型（算法）

您可能（如果我理解的解释正确的话）过度适合您的模型。添加更多数据通常有助于更好地训练模型。但是，我想，这不是你目前的主要问题。通常使用更多的数据会减少过度拟合，而不是更多。@MatiasValdenegro我同意，我删除了误导性陈述。

from sklearn.model_selection import cross_val_score
clf = SVC()
scores = cross_val_score(clf, X, Y)