Machine learning 机器学习的不平衡训练数据（CNNs/RNNs）_Machine Learning_Tensorflow_Conv Neural Network_Recurrent Neural Network

Machine learning 机器学习的不平衡训练数据（CNNs/RNNs）

machine-learning tensorflow

Machine learning 机器学习的不平衡训练数据（CNNs/RNNs）,machine-learning,tensorflow,conv-neural-network,recurrent-neural-network,Machine Learning,Tensorflow,Conv Neural Network,Recurrent Neural Network,我发现，当在不平衡的训练数据上训练一些CNN和RNN时，我的训练收敛相对较快，准确度大约为较大类的百分比（例如，如果有80%的是示例，它可能总是输出是）。我觉得这是可以解释的。。该解是一个局部最优解，网络在训练时无法逃逸。这种解释正确吗？这种行为在这些案例中最常见吗？我该怎么对付它呢？综合更多的训练数据，使集合更加均匀？还有什么？非常感谢是的，你是对的。不平衡的训练数据确实会影响准确性。解决班级不平衡问题的一些方法如下： 1）更多的数据收集：在某些情况下，这并不容易。例如，与非欺诈案件相

我发现，当在不平衡的训练数据上训练一些CNN和RNN时，我的训练收敛相对较快，准确度大约为较大类的百分比（例如，如果有80%的是示例，它可能总是输出是）。我觉得这是可以解释的。。该解是一个局部最优解，网络在训练时无法逃逸。这种解释正确吗？这种行为在这些案例中最常见吗？我该怎么对付它呢？综合更多的训练数据，使集合更加均匀？还有什么？

非常感谢

是的，你是对的。不平衡的训练数据确实会影响准确性。解决班级不平衡问题的一些方法如下：

1）更多的数据收集：在某些情况下，这并不容易。例如，与非欺诈案件相比，欺诈案件数量非常少

2）欠采样：从多数类中删除数据。您可以随机删除它或提供信息（从分发版获取帮助以决定要删除哪些部件/补丁）

3）过采样：复制属于少数群体的观察结果。

你的问题与TF无关，这是机器学习中的标准问题。只需在谷歌中输入“在机器学习中处理不平衡数据”，然后阅读几页

以下是一些方法：

获取更多数据
使用其他度量（f1）
欠采样/过采样/加权