Machine learning 空间衰减越大,mse越低是否合理?

Machine learning 空间衰减越大,mse越低是否合理?,machine-learning,deep-learning,keras,keras-layer,Machine Learning,Deep Learning,Keras,Keras Layer,我的观察结果是 SpatialDropout2D(0.2) 在5个卷积2D层中的每一层之后,在最初的几个时期内,训练和验证误差要比没有这些退出层的同一网络低得多(所有其他都相同)。这似乎与直觉相反,因为如果中间结果被随机删除,我希望优化例程在找到最小值时会有更多的困难 那么我的观察可信吗?如果是,为什么 一般来说,辍学是用来对付过度拟合的技术之一。它有望减少测试误差,但不会减少训练误差。相反,当模型不再过度拟合时,训练误差可能会增加 我建议阅读第7.12节中关于辍学的更多内容

我的观察结果是

SpatialDropout2D(0.2)
在5个卷积2D层中的每一层之后,在最初的几个时期内,训练和验证误差要比没有这些退出层的同一网络低得多(所有其他都相同)。这似乎与直觉相反,因为如果中间结果被随机删除,我希望优化例程在找到最小值时会有更多的困难


那么我的观察可信吗?如果是,为什么

一般来说,辍学是用来对付过度拟合的技术之一。它有望减少测试误差,但不会减少训练误差。相反,当模型不再过度拟合时,训练误差可能会增加

我建议阅读第7.12节中关于辍学的更多内容