Machine learning 测试精度大于列车精度怎么办?
我使用的是随机森林。我的测试准确率是70%,另一方面,训练准确率是34%?怎么办?如何解决此问题。Machine learning 测试精度大于列车精度怎么办?,machine-learning,regression,random-forest,Machine Learning,Regression,Random Forest,我使用的是随机森林。我的测试准确率是70%,另一方面,训练准确率是34%?怎么办?如何解决此问题。测试精度不应高于训练,因为模型针对后者进行了优化。这种行为可能发生的方式: 您没有使用相同的源数据集进行测试。您应该进行适当的列车/测试拆分,其中两个列车/测试具有相同的基础分布。很可能您为test 应用了不合理的高度规范化。即使如此,也需要一些“测试数据分布与列车数据分布不同”的元素,以使观察到的行为发生 首先,您应该检查用于培训的最终数据。我认为他们的数据有问题,数据可能没有经过适当的预处理
测试
精度不应高于训练
,因为模型针对后者进行了优化。这种行为可能发生的方式:
- 您没有使用相同的源数据集进行测试。您应该进行适当的列车/测试拆分,其中两个列车/测试具有相同的基础分布。很可能您为
test
- 应用了不合理的高度规范化。即使如此,也需要一些“测试数据分布与列车数据分布不同”的元素,以使观察到的行为发生
欢迎来到SO。请更具体一点,并显示代码和数据。我同意@javadba,并想补充一点:另一个原因可能是数据污染,测试集中也存在来自列车组的记录。