Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/python-3.x/17.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 3.x 总数据集培训是否提高了信心分数_Python 3.x_Machine Learning_Scikit Learn - Fatal编程技术网

Python 3.x 总数据集培训是否提高了信心分数

Python 3.x 总数据集培训是否提高了信心分数,python-3.x,machine-learning,scikit-learn,Python 3.x,Machine Learning,Scikit Learn,我在多类分类中使用SVC(kernel=“linear”,probability=True)。当我将三分之二的数据用于训练时,我得到了约72%。当我试图在生产中预测时,我得到的信心分数非常少。对总数据集进行培训是否有助于提高信心分数 对总数据集进行培训是否有助于提高信心分数 可能吧。一般来说,数据越多越好。但是,应在模型以前未见过的数据上进行性能评估。一种方法是像您所做的那样,留出一部分数据,一个测试集。另一种方法是使用交叉验证,见下文 当我试图在生产中预测时,我得到的信心分数非常少 这意味着您

我在多类分类中使用SVC(kernel=“linear”,probability=True)。当我将三分之二的数据用于训练时,我得到了约72%。当我试图在生产中预测时,我得到的信心分数非常少。对总数据集进行培训是否有助于提高信心分数

对总数据集进行培训是否有助于提高信心分数

可能吧。一般来说,数据越多越好。但是,应在模型以前未见过的数据上进行性能评估。一种方法是像您所做的那样,留出一部分数据,一个测试集。另一种方法是使用交叉验证,见下文

当我试图在生产中预测时,我得到的信心分数非常少

这意味着您的模型不能很好地推广。换句话说,当呈现数据时,在模型开始做出或多或少的随机预测之前,它从未见过

为了更好地了解模型的通用性,您可能需要使用:

这将使用完整数据的折叠在完整数据集上训练和评估分类器。对分类器的每次分割进行折叠,并在数据的一个排他子集上进行训练和验证。对于每个分割,
得分
结果包含验证得分(对于SVC,精度)。如果您需要对要评估的指标进行更多控制,请使用该函数

生产预测

为了提高模型的性能,需要考虑以下几种方法:

  • 使用更多的培训数据
  • 使用一种方法来减少预测方差
  • 使用不同的模型(算法)

您可能(如果我理解的解释正确的话)过度适合您的模型。添加更多数据通常有助于更好地训练模型。但是,我想,这不是你目前的主要问题。通常使用更多的数据会减少过度拟合,而不是更多。@MatiasValdenegro我同意,我删除了误导性陈述。
from sklearn.model_selection import cross_val_score
clf = SVC()
scores = cross_val_score(clf, X, Y)