Python 如何对图像分类模型执行显著性测试?

Python 如何对图像分类模型执行显著性测试?,python,tensorflow,keras,statistics,Python,Tensorflow,Keras,Statistics,我用keras创建了一个多类分类CNN模型 我已经训练了我的模型,并在测试集上生成了分类报告。这为我提供了每个模型的评估指标精度、召回率和f1 现在我想知道我的模型的相应结果是否具有统计显著性,即确定模型的p值。我如何测试这个?由于我几乎找不到任何这样做的例子,我想知道它在图像分类器的上下文中是否有意义 对此的任何澄清都将不胜感激 深度学习中没有太多意义测试。你可以去参加麦克内玛的测试。问题是,使用大型神经网络进行多次重复的训练和测试成本很高。只是一个小问题,为什么要比较多类分类器和多标签分类器

我用keras创建了一个多类分类CNN模型

我已经训练了我的模型,并在测试集上生成了分类报告。这为我提供了每个模型的评估指标精度、召回率和f1

现在我想知道我的模型的相应结果是否具有统计显著性,即确定模型的p值。我如何测试这个?由于我几乎找不到任何这样做的例子,我想知道它在图像分类器的上下文中是否有意义


对此的任何澄清都将不胜感激

深度学习中没有太多意义测试。你可以去参加麦克内玛的测试。问题是,使用大型神经网络进行多次重复的训练和测试成本很高。只是一个小问题,为什么要比较多类分类器和多标签分类器?从标签的分布来看,两者中只有一个是“正确”的模型,对吗?如果你处在一个多标签的情况下,多类分类器应该表现不佳。你能详细解释一下为什么“在深度学习中没有太多的意义测试”吗?麦克内马尔的测试还有其他选择吗?关于你的问题:我不想比较两种模型。我只想独立地检查每个模型的重要性。很抱歉,如果我上面的描述不清楚的话。在机器学习中,显著性测试基本上被使用序列测试分割“取代”。我不知道你对单一模型的意义是什么。您可以计算两个模型的AUC,将其与随机分类器进行比较(AUC为0.5=不比随机分类器好)。McNemar的测试旨在对两个模型进行相互比较。对于“模型的显著性”,我的意思是我要检查每个模型的精度、召回率和f1分数值是否具有统计显著性。谢谢你给AUC的建议,我会调查的!我猜,你的意思是,从精确度、召回率和随机分类器的f1分数来看,它们在统计上是显著的。在这种情况下,你真的想了解AUC。这不是一个传统的统计测试,但它确实包含了精确性和召回率。