Python 3.x 总数据集培训是否提高了信心分数
我在多类分类中使用SVC(kernel=“linear”,probability=True)。当我将三分之二的数据用于训练时,我得到了约72%。当我试图在生产中预测时,我得到的信心分数非常少。对总数据集进行培训是否有助于提高信心分数 对总数据集进行培训是否有助于提高信心分数 可能吧。一般来说,数据越多越好。但是,应在模型以前未见过的数据上进行性能评估。一种方法是像您所做的那样,留出一部分数据,一个测试集。另一种方法是使用交叉验证,见下文 当我试图在生产中预测时,我得到的信心分数非常少 这意味着您的模型不能很好地推广。换句话说,当呈现数据时,在模型开始做出或多或少的随机预测之前,它从未见过 为了更好地了解模型的通用性,您可能需要使用: 这将使用完整数据的折叠在完整数据集上训练和评估分类器。对分类器的每次分割进行折叠,并在数据的一个排他子集上进行训练和验证。对于每个分割,Python 3.x 总数据集培训是否提高了信心分数,python-3.x,machine-learning,scikit-learn,Python 3.x,Machine Learning,Scikit Learn,我在多类分类中使用SVC(kernel=“linear”,probability=True)。当我将三分之二的数据用于训练时,我得到了约72%。当我试图在生产中预测时,我得到的信心分数非常少。对总数据集进行培训是否有助于提高信心分数 对总数据集进行培训是否有助于提高信心分数 可能吧。一般来说,数据越多越好。但是,应在模型以前未见过的数据上进行性能评估。一种方法是像您所做的那样,留出一部分数据,一个测试集。另一种方法是使用交叉验证,见下文 当我试图在生产中预测时,我得到的信心分数非常少 这意味着您
得分
结果包含验证得分(对于SVC,精度)。如果您需要对要评估的指标进行更多控制,请使用该函数
生产预测
为了提高模型的性能,需要考虑以下几种方法:
- 使用更多的培训数据
- 使用一种方法来减少预测方差
- 使用不同的模型(算法)
from sklearn.model_selection import cross_val_score
clf = SVC()
scores = cross_val_score(clf, X, Y)