Machine learning 机器学习的不平衡训练数据(CNNs/RNNs)

Machine learning 机器学习的不平衡训练数据(CNNs/RNNs),machine-learning,tensorflow,conv-neural-network,recurrent-neural-network,Machine Learning,Tensorflow,Conv Neural Network,Recurrent Neural Network,我发现,当在不平衡的训练数据上训练一些CNN和RNN时,我的训练收敛相对较快,准确度大约为较大类的百分比(例如,如果有80%的是示例,它可能总是输出是)。我觉得这是可以解释的。。该解是一个局部最优解,网络在训练时无法逃逸。这种解释正确吗?这种行为在这些案例中最常见吗? 我该怎么对付它呢?综合更多的训练数据,使集合更加均匀?还有什么? 非常感谢 是的,你是对的。不平衡的训练数据确实会影响准确性。解决班级不平衡问题的一些方法如下: 1) 更多的数据收集:在某些情况下,这并不容易。例如,与非欺诈案件相

我发现,当在不平衡的训练数据上训练一些CNN和RNN时,我的训练收敛相对较快,准确度大约为较大类的百分比(例如,如果有80%的是示例,它可能总是输出是)。我觉得这是可以解释的。。该解是一个局部最优解,网络在训练时无法逃逸。这种解释正确吗?这种行为在这些案例中最常见吗? 我该怎么对付它呢?综合更多的训练数据,使集合更加均匀?还有什么?
非常感谢

是的,你是对的。不平衡的训练数据确实会影响准确性。解决班级不平衡问题的一些方法如下:

1) 更多的数据收集:在某些情况下,这并不容易。例如,与非欺诈案件相比,欺诈案件数量非常少

2) 欠采样:从多数类中删除数据。您可以随机删除它或提供信息(从分发版获取帮助以决定要删除哪些部件/补丁)


3) 过采样:复制属于少数群体的观察结果。

你的问题与TF无关,这是机器学习中的标准问题。只需在谷歌中输入“在机器学习中处理不平衡数据”,然后阅读几页

以下是一些方法:

  • 获取更多数据
  • 使用其他度量(f1)
  • 欠采样/过采样/加权