Python 从测试数据集获得最佳精度
我使用随机森林分类器将数据分类为4个标签。模型总共有20个特征正在接受训练。当使用测试数据集时,我观察到的准确率约为45-47%。虽然在预测训练数据集时,我得到了100%的准确率。此外,我还使用了使用网格搜索方法提取的最佳参数。有人能解释为什么训练和测试预测之间存在这种偏差吗。如何增强场景Python 从测试数据集获得最佳精度,python,machine-learning,random-forest,Python,Machine Learning,Random Forest,我使用随机森林分类器将数据分类为4个标签。模型总共有20个特征正在接受训练。当使用测试数据集时,我观察到的准确率约为45-47%。虽然在预测训练数据集时,我得到了100%的准确率。此外,我还使用了使用网格搜索方法提取的最佳参数。有人能解释为什么训练和测试预测之间存在这种偏差吗。如何增强场景 附言:我是机器学习新手可能有很多原因 1有一种可能是,模型过于合适。您可以尝试进行超参数优化,以找到模型性能更好的最佳值。 2由于使用精度作为性能参数,因此可以检查数据集是否平衡。如果您使用的是不平衡数据集,
附言:我是机器学习新手可能有很多原因 1有一种可能是,模型过于合适。您可以尝试进行超参数优化,以找到模型性能更好的最佳值。
2由于使用精度作为性能参数,因此可以检查数据集是否平衡。如果您使用的是不平衡数据集,您可以使用ROC、AUC特征。首先,这不是解决您问题的合适平台。作为交换。可能的原因是您对模型的拟合过度。如果您无法理解为什么您的模型在经过培训的场景中表现得比以前从未见过的场景更好,那么您可能需要进行一些与机器学习相关的基本阅读。在培训过程中,您可以调整模型以最佳地表示培训数据。理想情况下,仔细选择这些数据,以便将其推广到任何未知数据集。大多数模型在其训练集上的得分都近乎完美,因为这是他们试图概括的输入。