Machine learning 关于使用LSTM模型处理超长输入的实用建议?

Machine learning 关于使用LSTM模型处理超长输入的实用建议?,machine-learning,deep-learning,nlp,lstm,recurrent-neural-network,Machine Learning,Deep Learning,Nlp,Lstm,Recurrent Neural Network,我在文本数据上构建了一个字符级LSTM模型,但最终我希望将此模型应用于非常长的文本文档(如小说),其中理解上下文信息非常重要,例如它在小说中的位置 对于这些大规模NLP任务,数据是否通常被切割成更小的片段,并与元数据(如文档中的位置、检测到的主题等)连接起来,以输入模型?或者还有更优雅的技巧吗?就我个人而言,我没有深入使用LSTM来达到您试图达到的深度,但我有一些建议 上面提到的解决问题的一个方法是,通过将文档拆分为更小的部分并以这种方式进行分析,从而简单地分析文档的不同部分。你可能必须要有创意

我在文本数据上构建了一个字符级LSTM模型,但最终我希望将此模型应用于非常长的文本文档(如小说),其中理解上下文信息非常重要,例如它在小说中的位置


对于这些大规模NLP任务,数据是否通常被切割成更小的片段,并与元数据(如文档中的位置、检测到的主题等)连接起来,以输入模型?或者还有更优雅的技巧吗?

就我个人而言,我没有深入使用LSTM来达到您试图达到的深度,但我有一些建议

上面提到的解决问题的一个方法是,通过将文档拆分为更小的部分并以这种方式进行分析,从而简单地分析文档的不同部分。你可能必须要有创意


我认为您可能感兴趣的另一个解决方案是使用树LSTM模型,以获得深度层次。使用树模型,您可以在最低级别输入单个字符或单词,然后将其向上输入到更高的抽象级别。同样,我对这个模型并不完全熟悉,所以不要相信我的话,但这可能是一个可行的解决方案。

在回答bhaskar提出的问题时添加了一些新的想法,这些想法被用来处理这个问题

您可以使用注意机制,该机制用于处理长期依赖关系。因为对于一个长序列,它肯定会忘记信息,或者它的下一个预测可能不依赖于它单元中的所有序列信息。因此,
注意机制有助于找到字符的合理权重,这取决于。
有关更多信息,请查看此项

关于这个问题有很多潜在的研究。这是关于这个问题的最新论文

您还可以中断序列并使用
seq2seq
model,将特征编码到低dims空间,然后解码器将其提取出来。这是在这上面


我个人的建议是打破序列,然后训练它,因为完整序列上的滑动窗口几乎能够找到每个序列之间的相关性。

此问题可能重复感谢Bhaskar指出了另一个问题。