Scikit learn 分类预测产生错误的结果

Scikit learn 分类预测产生错误的结果,scikit-learn,Scikit Learn,我从一个数据集中生成了模型,并试图根据cohen_kappa分数和预测精度找到最佳算法。我针对各种算法运行它,因为我将获得的数据类型未知,所以通过比较它们的kappa和精度来找到最佳算法。 我的数据经过10次交叉验证 我对随机森林、决策树、SGDClassizer、感知器、被动攻击、逻辑回归、梯度推进、朴素贝叶斯、KNeighbors进行了比较 在我的例子中,我得到了Random Forest作为分类的最佳算法,Kappa=1,精度=0.94 我的分类为2级分类,条件如响应时间>200 现在,当

我从一个数据集中生成了模型,并试图根据cohen_kappa分数和预测精度找到最佳算法。我针对各种算法运行它,因为我将获得的数据类型未知,所以通过比较它们的kappa和精度来找到最佳算法。 我的数据经过10次交叉验证

我对随机森林、决策树、SGDClassizer、感知器、被动攻击、逻辑回归、梯度推进、朴素贝叶斯、KNeighbors进行了比较

在我的例子中,我得到了Random Forest作为分类的最佳算法,Kappa=1,精度=0.94

我的分类为2级分类,条件如响应时间>200

现在,当我尝试运行预测时,对于某些因变量值,我得到了正确的预测,但对于某些因变量值,它是完全错误的

我尝试了所有不同的算法,但预测结果非常不一致


谢谢

您必须仔细查看错误预测的特征值。您的数据集中可能有相互矛盾的数据。例如,如果你有这样的观察和标签,你永远不会得到100%的准确率,无论你如何努力,如何交叉验证或堆叠你的算法。75%的准确率是这里的最高分数

0 => 0
0 => 0
0 => 0
0 => 1 <- this sample have wrong label
1 => 1
1 => 1
1 => 1
1 => 0 <- this sample have wrong label
0=>0
0 => 0
0 => 0
0 => 1  1
1 => 1
1 => 1

1=>0您可以上传您的数据吗?我的一个示例数据已附加。但是这一个对于随机森林的kappa=0,精度为0.97。抱歉,在完成我的回答之前,点击回车键。我的一个样本数据附在附件中。但是这一个对于随机森林的kappa=0,精确度为0.97。附加用于生成模型的示例数据文件。我正在尝试重新生成kappa值为1的数据集。有了这个数据集,我可以为一个数据集输入得到正确的预测值,但为不同的输入得到错误的预测值。正在附加所有3个arff文件。在上载文件和共享时遇到问题。请给我一些时间