Deep learning “kur测试”和“kur评估”之间有什么区别`

Deep learning “kur测试”和“kur评估”之间有什么区别`,deep-learning,Deep Learning,kur测试和kur评估到底有什么不同 我们从控制台看到的差异 (dlnd-tf-lab) ->kur evaluate mnist.yml Evaluating: 100%|████████████████████████████| 10000/10000 [00:04<00:00, 2417.95samples/s] LABEL CORRECT TOTAL ACCURACY 0 949 980

kur测试
kur评估
到底有什么不同

我们从控制台看到的差异

    (dlnd-tf-lab)  ->kur evaluate mnist.yml
    Evaluating: 100%|████████████████████████████| 10000/10000 [00:04<00:00, 2417.95samples/s]
    LABEL     CORRECT   TOTAL     ACCURACY
    0         949       980        96.8%
    1         1096      1135       96.6%
    2         861       1032       83.4%
    3         868       1010       85.9%
    4         929       982        94.6%
    5         761       892        85.3%
    6         849       958        88.6%
    7         935       1028       91.0%
    8         828       974        85.0%
    9         859       1009       85.1%
    ALL       8935      10000      89.3%


    Focus on one: /Users/Natsume/Downloads/kur/examples
    (dlnd-tf-lab)  ->kur test  mnist.yml
    Testing, loss=0.458: 100%|█████████████████████| 3200/3200 [00:01<00:00, 2427.42samples/s]
(dlnd tf实验室)->kur evaluate mnist.yml
评估:100%|████████████████████████████| 10000/10000[00:04kur测试mnist.yml
测试,损失=0.458:100%|█████████████████████| 3200/3200[00:01@ajsyp(深度学习库)的开发者提供了以下答案,我发现这非常有帮助

当您知道“正确答案”是什么,并且您 只是想看看你的模型在一个搁置的样本上表现得有多好

kur evaluate
是一种纯粹的推理:用于从 你训练有素的模特

通常,在机器学习中,您将可用数据分成3部分 集合:培训、验证和测试(人们有时称之为 不同的东西,只是让你知道)。对于一个特定的模型 架构/模型超参数选择,您可以在 培训集,并使用验证集测量模型的性能 执行(学习是否正确?是否过度训练?等等)。但是 通常想要比较许多不同的模型超参数:可能 例如,可以调整层的数量或大小

那么,如何选择“最佳”模型呢?最天真的做法是 选择验证损失最小的模型,然后运行 优化/调整您的模型以在 验证集

因此,测试集开始发挥作用:您使用测试集作为最终测试, 最后,测试您的每个模型的性能。 尽可能长时间地隐藏测试集是非常重要的, 否则,您无法公正地了解您的模型有多好 或者它与其他模型的比较

kur测试
旨在通过模型运行测试集 计算损失(并运行任何适用的挂钩)

但是现在让我们假设你有一个训练有素的模型,比如说图像识别 模型,现在你想实际使用它!你得到一些新数据(你 也许他们甚至没有“真相”的标签,只有原始的 图像),您希望模型对图像进行分类。这就是
kur evaluate
用于:它采用经过训练的模型,并在 生产模式,“您没有/不需要真实值