Machine learning CRNN结构中的LSTM权重批量归一化

Machine learning CRNN结构中的LSTM权重批量归一化,machine-learning,tensorflow,neural-network,conv-neural-network,lstm,Machine Learning,Tensorflow,Neural Network,Conv Neural Network,Lstm,我在基于卷积RNN的网络上尝试了LSTM权重的批量标准化,并且在训练速度和性能方面得到了显著的改进。从CNN中提取的特征被输入到两层双向LSTM中 在我的第一个网络中,我使用了很少的特征映射,因此输入到LSTM层的是128。然而,当我增加输入大小(例如256)时,我开始在一些迭代之后获得LSTM输出的NAN(它在没有批量标准化的情况下工作正常)。据我所知,这可能与按小数字划分有关。我还使用了10^-6的ε,但仍然得到了NaN 我能做些什么来摆脱NaNs?谢谢。对于那些有相同问题的人,使用floa

我在基于卷积RNN的网络上尝试了LSTM权重的批量标准化,并且在训练速度和性能方面得到了显著的改进。从CNN中提取的特征被输入到两层双向LSTM中

在我的第一个网络中,我使用了很少的特征映射,因此输入到LSTM层的是128。然而,当我增加输入大小(例如256)时,我开始在一些迭代之后获得LSTM输出的NAN(它在没有批量标准化的情况下工作正常)。据我所知,这可能与按小数字划分有关。我还使用了10^-6的ε,但仍然得到了NaN


我能做些什么来摆脱NaNs?谢谢。

对于那些有相同问题的人,使用float64数据类型而不是float32有助于解决此问题。当然这会影响内存,但我发现它是目前为止唯一的解决方案。

在哪一步使用float64?输入?