Python 如何对图像分类模型执行显著性测试？_Python_Tensorflow_Keras_Statistics

Python 如何对图像分类模型执行显著性测试？

python tensorflow keras statistics

Python 如何对图像分类模型执行显著性测试？,python,tensorflow,keras,statistics,Python,Tensorflow,Keras,Statistics,我用keras创建了一个多类分类CNN模型我已经训练了我的模型，并在测试集上生成了分类报告。这为我提供了每个模型的评估指标精度、召回率和f1 现在我想知道我的模型的相应结果是否具有统计显著性，即确定模型的p值。我如何测试这个？由于我几乎找不到任何这样做的例子，我想知道它在图像分类器的上下文中是否有意义对此的任何澄清都将不胜感激深度学习中没有太多意义测试。你可以去参加麦克内玛的测试。问题是，使用大型神经网络进行多次重复的训练和测试成本很高。只是一个小问题，为什么要比较多类分类器和多标签分类器

我用keras创建了一个多类分类CNN模型

我已经训练了我的模型，并在测试集上生成了分类报告。这为我提供了每个模型的评估指标精度、召回率和f1

现在我想知道我的模型的相应结果是否具有统计显著性，即确定模型的p值。我如何测试这个？由于我几乎找不到任何这样做的例子，我想知道它在图像分类器的上下文中是否有意义

对此的任何澄清都将不胜感激

深度学习中没有太多意义测试。你可以去参加麦克内玛的测试。问题是，使用大型神经网络进行多次重复的训练和测试成本很高。只是一个小问题，为什么要比较多类分类器和多标签分类器？从标签的分布来看，两者中只有一个是“正确”的模型，对吗？如果你处在一个多标签的情况下，多类分类器应该表现不佳。你能详细解释一下为什么“在深度学习中没有太多的意义测试”吗？麦克内马尔的测试还有其他选择吗？关于你的问题：我不想比较两种模型。我只想独立地检查每个模型的重要性。很抱歉，如果我上面的描述不清楚的话。在机器学习中，显著性测试基本上被使用序列测试分割“取代”。我不知道你对单一模型的意义是什么。您可以计算两个模型的AUC，将其与随机分类器进行比较（AUC为0.5=不比随机分类器好）。McNemar的测试旨在对两个模型进行相互比较。对于“模型的显著性”，我的意思是我要检查每个模型的精度、召回率和f1分数值是否具有统计显著性。谢谢你给AUC的建议，我会调查的！我猜，你的意思是，从精确度、召回率和随机分类器的f1分数来看，它们在统计上是显著的。在这种情况下，你真的想了解AUC。这不是一个传统的统计测试，但它确实包含了精确性和召回率。