Machine learning CRNN结构中的LSTM权重批量归一化_Machine Learning_Tensorflow_Neural Network_Conv Neural Network_Lstm

Machine learning CRNN结构中的LSTM权重批量归一化

machine-learning tensorflow neural-network

Machine learning CRNN结构中的LSTM权重批量归一化,machine-learning,tensorflow,neural-network,conv-neural-network,lstm,Machine Learning,Tensorflow,Neural Network,Conv Neural Network,Lstm,我在基于卷积RNN的网络上尝试了LSTM权重的批量标准化，并且在训练速度和性能方面得到了显著的改进。从CNN中提取的特征被输入到两层双向LSTM中在我的第一个网络中，我使用了很少的特征映射，因此输入到LSTM层的是128。然而，当我增加输入大小（例如256）时，我开始在一些迭代之后获得LSTM输出的NAN（它在没有批量标准化的情况下工作正常）。据我所知，这可能与按小数字划分有关。我还使用了10^-6的ε，但仍然得到了NaN 我能做些什么来摆脱NaNs？谢谢。对于那些有相同问题的人，使用floa

我在基于卷积RNN的网络上尝试了LSTM权重的批量标准化，并且在训练速度和性能方面得到了显著的改进。从CNN中提取的特征被输入到两层双向LSTM中

在我的第一个网络中，我使用了很少的特征映射，因此输入到LSTM层的是128。然而，当我增加输入大小（例如256）时，我开始在一些迭代之后获得LSTM输出的NAN（它在没有批量标准化的情况下工作正常）。据我所知，这可能与按小数字划分有关。我还使用了10^-6的ε，但仍然得到了NaN

我能做些什么来摆脱NaNs？谢谢。

对于那些有相同问题的人，使用float64数据类型而不是float32有助于解决此问题。当然这会影响内存，但我发现它是目前为止唯一的解决方案。

在哪一步使用float64？输入？