Machine learning 除了训练、验证和测试数据集之外,如何在全新的数据集上评估机器学习模型的性能?

Machine learning 除了训练、验证和测试数据集之外,如何在全新的数据集上评估机器学习模型的性能?,machine-learning,model,metrics,Machine Learning,Model,Metrics,场景: 我们的数据科学团队为分类任务构建机器学习模型。我们在训练、验证和测试数据集上评估我们的模型性能。我们使用精确度、召回率和F1分数。 然后,我们在生产环境中的全新数据集上运行模型并进行预测。一周后,我们得到了关于我们的预测模型表现如何的反馈 问题: 当我们在真实数据集上评估模型的性能时,我们应该使用什么指标?在这种情况下,预测准确度是更好的衡量标准吗?我认为您应该衡量相同的衡量标准,或者一些业务衡量标准 通常,模型针对某一损失/度量进行优化,这意味着具有某一度量的高值的模型在不同度量上可能

场景: 我们的数据科学团队为分类任务构建机器学习模型。我们在训练、验证和测试数据集上评估我们的模型性能。我们使用精确度、召回率和F1分数。 然后,我们在生产环境中的全新数据集上运行模型并进行预测。一周后,我们得到了关于我们的预测模型表现如何的反馈

问题:
当我们在真实数据集上评估模型的性能时,我们应该使用什么指标?在这种情况下,预测准确度是更好的衡量标准吗?

我认为您应该衡量相同的衡量标准,或者一些业务衡量标准

通常,模型针对某一损失/度量进行优化,这意味着具有某一度量的高值的模型在不同度量上可能具有更差的值

准确度是一个指标,受数据中类别平衡的严重影响,因此应谨慎使用

因此,我建议使用相同的指标

另一种方法是使用一些业务指标,例如这些模型带来的收入。

模型评估
看一看。这很容易理解,涵盖了您需要了解的关于机器学习模型验证的所有信息。

我们如何区分测试数据集产生的召回率/精确性和生产环境中真实数据集产生的召回率/精确性?它们是在不同的数据集上计算的,对吗?所以他们会有所不同。如果您需要一些解释:“通常”测试数据集是一个看不见的数据,它在当前时刻是实际的。“生产”测试数据集显示新数据,这些数据将在将来到达。通常,这些新数据可能会随时间而变化,因此有必要定期重新训练模型以提高性能。将您的结果与业务的实际结果进行比较,您可以获得该指标