Python 列车/测试OOB分数、准确性和f1分数

Python 列车/测试OOB分数、准确性和f1分数,python,machine-learning,cross-validation,Python,Machine Learning,Cross Validation,我真的是个新手,相当困惑。我正在用随机森林(分类)训练我的模型,并试图完全掌握以下概念 据我所知:您使用训练/测试分割或交叉验证或oob(引导方法)分割您的模型 . 然后,精度分数或f1分数表示模型在测试集上的性能(精度对于平衡类更好,f1对于不平衡类更好) 但是OOB分数代表了验证集有多好,那么模型对数据的训练有多好 我是不是误会了这里的一切 我对准确度/f1分数和OOB分数之间的差异感到困惑 如果您有任何意见,我们将不胜感激。以下是您所看到的两个不同方面: 度量,这些是用于评估模型在一组数据

我真的是个新手,相当困惑。我正在用随机森林(分类)训练我的模型,并试图完全掌握以下概念

据我所知:您使用训练/测试分割或交叉验证或oob(引导方法)分割您的模型 . 然后,精度分数或f1分数表示模型在测试集上的性能(精度对于平衡类更好,f1对于不平衡类更好)

但是OOB分数代表了验证集有多好,那么模型对数据的训练有多好

我是不是误会了这里的一切

我对准确度/f1分数和OOB分数之间的差异感到困惑


如果您有任何意见,我们将不胜感激。

以下是您所看到的两个不同方面:

  • 度量,这些是用于评估模型在一组数据上的性能的数学公式,因此您可以为其提供基本事实(真实标签)和预测标签,并计算度量分数,这些度量包括:

    • 准确度
    • 精密度
    • 回忆
    • F1
    • 微卫星
    • 等等
  • 方差缩减,这些方法用于减少模型的方差,即:防止模型与数据过度拟合,这些方法包括:

    • 使用两套不同的装置(即列车/测试分离)
    • 交叉验证(例如K倍交叉验证、LOOCV等)
    • 这种方法特别适用于随机森林算法,用于引导集合(森林)中每个学习者使用的数据
    • 等等
  • 因此,基本上,您使用一种方法来尝试减少模型的差异,从而改进度量


    至于你的具体问题:什么是OOB分数的准确性分数?OOB算法创建用于训练的数据子集,然后根据这些子集的预测标签使用度量计算分数。

    我投票结束这个问题,因为它不是关于中定义的编程,而是关于ML理论和/或方法-请参阅
    机器学习