Neural network 神经网络在训练数据集中学习分布吗?

Neural network 神经网络在训练数据集中学习分布吗?,neural-network,classification,training-data,Neural Network,Classification,Training Data,我试图在不平衡类(20%的类1,70%的类2,10%的类3)的数据集上训练卷积神经网络。我想让网络知道,与2班相比,1班和3班很少发生 大多数stackoverflow的答案都建议通过向表示不足的类添加更多数据来平衡数据集,或者对权重更新进行优先级排序 我的问题 1) 如果我不采取任何措施来平衡数据集而进行训练,模型会自己学习训练数据集的分布吗 2) 如果他们能够了解数据的分布情况,那么有什么必要按照许多答案中的建议平衡数据集 谢谢 根据给定的情况,您可能能够为不平衡类训练成功的神经网络。然而,

我试图在不平衡类(20%的类1,70%的类2,10%的类3)的数据集上训练卷积神经网络。我想让网络知道,与2班相比,1班和3班很少发生

大多数stackoverflow的答案都建议通过向表示不足的类添加更多数据来平衡数据集,或者对权重更新进行优先级排序

我的问题

1) 如果我不采取任何措施来平衡数据集而进行训练,模型会自己学习训练数据集的分布吗

2) 如果他们能够了解数据的分布情况,那么有什么必要按照许多答案中的建议平衡数据集


谢谢

根据给定的情况,您可能能够为不平衡类训练成功的神经网络。然而,假设您正在尝试训练一个分类器,您有90%的类a实例和10%的类B实例

一个非常容易找到、也非常有效的“解决方案”是创建一个始终返回A类作为预测的网络,因为这将具有90%的准确性(9/10正确预测)。学习算法可能很难从这个解决方案转移到更好的解决方案(可能所有可能的小变化都会导致网络性能比原来的差!)

拥有一个更平衡的训练集意味着这种懒惰的解决方案将导致更低的性能(在两个平衡良好的类的情况下不超过50%)


简而言之,平衡类是一种通过阻止坏的解决方案来帮助学习算法的方法,即使理论上对不平衡类的训练有时可能有效。

根据给定的情况,您可能能够为不平衡类训练成功的神经网络。然而,假设您正在尝试训练一个分类器,您有90%的类a实例和10%的类B实例

一个非常容易找到、也非常有效的“解决方案”是创建一个始终返回A类作为预测的网络,因为这将具有90%的准确性(9/10正确预测)。学习算法可能很难从这个解决方案转移到更好的解决方案(可能所有可能的小变化都会导致网络性能比原来的差!)

拥有一个更平衡的训练集意味着这种懒惰的解决方案将导致更低的性能(在两个平衡良好的类的情况下不超过50%)


简言之,平衡类是一种通过阻止坏的解决方案来帮助学习算法的方法,即使理论上对不平衡类的训练有时可能有效。

有没有一种方法可以有效地在正态分布数据集上训练回归模型。我想让网络知道1班和3班很少发生。在这种情况下,平衡训练数据集没有任何意义。如果你正在构建一个分类器,那么你希望你的网络能够识别给定示例的正确类,这样网络就不必知道任何给定类是否非常常见,但它必须了解是什么使一个例子属于每一个类。我的意思是:你的类的相对频率只影响你的学习算法工作的容易程度,而不影响结果网络的行为。有没有办法在正态分布的数据集上有效地训练回归模型。我想让网络知道1班和3班很少发生。在这种情况下,平衡训练数据集没有任何意义。如果你正在构建一个分类器,那么你希望你的网络能够识别给定示例的正确类,这样网络就不必知道任何给定类是否非常常见,我的意思是:你的类的相对频率只会影响你的学习算法工作的容易程度,而不会影响结果网络的行为。