Neural network 计算机视觉:将数据集分成几个类,并在推理过程中将它们组合起来

Neural network 计算机视觉:将数据集分成几个类,并在推理过程中将它们组合起来,neural-network,computer-vision,dataset,conv-neural-network,multiclass-classification,Neural Network,Computer Vision,Dataset,Conv Neural Network,Multiclass Classification,情景:我们正在训练一种区分睁眼和闭眼的神经网络。在收集数据的过程中,我们不仅收集了睁眼和闭眼的数据,而且还收集了眼睛边缘的数据,比如被手或手臂遮住的眼睛,以及非常强烈地俯视遮盖大部分眼睛的东西。然而,我们把所有睁开和闭上的眼睛放在一起,训练一个二元分类神经网络,因为这就是我们在推理过程中所关心的 问题:我们想知道培训多类网络是否有意义。例如,我们会让类打开,关闭,用手覆盖,没有眼睛,向下看。。并将除封闭类之外的所有类合并为一个类。我们认为,如果我们区分所有这些情况,模型可能能够更好地理解现实世界

情景:我们正在训练一种区分睁眼和闭眼的神经网络。在收集数据的过程中,我们不仅收集了睁眼和闭眼的数据,而且还收集了眼睛边缘的数据,比如被手或手臂遮住的眼睛,以及非常强烈地俯视遮盖大部分眼睛的东西。然而,我们把所有睁开和闭上的眼睛放在一起,训练一个二元分类神经网络,因为这就是我们在推理过程中所关心的

问题:我们想知道培训多类网络是否有意义。例如,我们会让类打开,关闭,用手覆盖,没有眼睛,向下看。。并将除封闭类之外的所有类合并为一个类。我们认为,如果我们区分所有这些情况,模型可能能够更好地理解现实世界,但我想强调的是,如果眼睛被一只手遮住,我们不需要这些信息——我们只需要知道眼睛是否闭着


我试图找到关于这个主题的研究,但没有成功。

我的直觉与你的直觉一致,但我没有足够的实践来给出正确的答案。分为两类,就像一位律师问你一个肯定/否定的问题,这个问题比简单的肯定/否定要复杂得多。网络可能会自行制定这些区别,并学会按要求将其分解/分组,但它可能难以将这些特殊情况归类为简单的“非此即彼”。我将为它提供多个类中的“out”,这样它就可以自信地标记那些(预期是常见的!)情况。你可以尝试两种方法(只是为另一种方法再培训)并进行比较。你的最终目标是建立最好的模型,不是吗?你如何判断一个ML模型是好是坏?我们通过评估这些模型来决定它。因此,我建议您准备一个健壮的测试集(考虑所有可能的实时场景),并通过度量(如准确性)比较您的模型和方法。获得最佳结果的模式或方法是您的最佳模式。我希望这是有道理的。