Machine learning 关于使用LSTM模型处理超长输入的实用建议？_Machine Learning_Deep Learning_Nlp_Lstm_Recurrent Neural Network

Machine learning 关于使用LSTM模型处理超长输入的实用建议？

machine-learning deep-learning nlp

Machine learning 关于使用LSTM模型处理超长输入的实用建议？,machine-learning,deep-learning,nlp,lstm,recurrent-neural-network,Machine Learning,Deep Learning,Nlp,Lstm,Recurrent Neural Network,我在文本数据上构建了一个字符级LSTM模型，但最终我希望将此模型应用于非常长的文本文档（如小说），其中理解上下文信息非常重要，例如它在小说中的位置对于这些大规模NLP任务，数据是否通常被切割成更小的片段，并与元数据（如文档中的位置、检测到的主题等）连接起来，以输入模型？或者还有更优雅的技巧吗？就我个人而言，我没有深入使用LSTM来达到您试图达到的深度，但我有一些建议上面提到的解决问题的一个方法是，通过将文档拆分为更小的部分并以这种方式进行分析，从而简单地分析文档的不同部分。你可能必须要有创意

我在文本数据上构建了一个字符级LSTM模型，但最终我希望将此模型应用于非常长的文本文档（如小说），其中理解上下文信息非常重要，例如它在小说中的位置

对于这些大规模NLP任务，数据是否通常被切割成更小的片段，并与元数据（如文档中的位置、检测到的主题等）连接起来，以输入模型？或者还有更优雅的技巧吗？

就我个人而言，我没有深入使用LSTM来达到您试图达到的深度，但我有一些建议

上面提到的解决问题的一个方法是，通过将文档拆分为更小的部分并以这种方式进行分析，从而简单地分析文档的不同部分。你可能必须要有创意

我认为您可能感兴趣的另一个解决方案是使用树LSTM模型，以获得深度层次。使用树模型，您可以在最低级别输入单个字符或单词，然后将其向上输入到更高的抽象级别。同样，我对这个模型并不完全熟悉，所以不要相信我的话，但这可能是一个可行的解决方案。

在回答bhaskar提出的问题时添加了一些新的想法，这些想法被用来处理这个问题

您可以使用注意机制，该机制用于处理长期依赖关系。因为对于一个长序列，它肯定会忘记信息，或者它的下一个预测可能不依赖于它单元中的所有序列信息。因此，

注意机制有助于找到字符的合理权重，这取决于。

有关更多信息，请查看此项

关于这个问题有很多潜在的研究。这是关于这个问题的最新论文

您还可以中断序列并使用

seq2seq

model，将特征编码到低dims空间，然后解码器将其提取出来。这是在这上面

我个人的建议是打破序列，然后训练它，因为完整序列上的滑动窗口几乎能够找到每个序列之间的相关性。

此问题可能重复感谢Bhaskar指出了另一个问题。