Python 如何使用神经网络从特定主题的句子中提取相关短语?

Python 如何使用神经网络从特定主题的句子中提取相关短语?,python,text,nlp,lstm,recurrent-neural-network,Python,Text,Nlp,Lstm,Recurrent Neural Network,我将训练数据分为两列 1.“句子” 2.本栏中的“相关文本”是“句子”栏中文本的子集 我尝试用LSTM训练RNN,直接将“句子”作为输入,“相关文本”和输出,但结果令人失望 我想知道如何处理这类问题?这种问题有名字吗?我应该探索哪些模型?如果目标文本是输入文本的子集,那么,我相信,这个问题可以作为标记问题来解决:让每个单词的神经网络预测它是否相关 一方面,从著名的无监督算法到复杂的基于BERT的神经模型,获取文本并选择最能反映其含义的子集的问题被称为,并且有很多解决方案 另一方面,从技术上讲,您

我将训练数据分为两列 1.“句子” 2.本栏中的“相关文本”是“句子”栏中文本的子集

我尝试用LSTM训练RNN,直接将“句子”作为输入,“相关文本”和输出,但结果令人失望


我想知道如何处理这类问题?这种问题有名字吗?我应该探索哪些模型?

如果目标文本是输入文本的子集,那么,我相信,这个问题可以作为标记问题来解决:让每个单词的神经网络预测它是否相关

一方面,从著名的无监督算法到复杂的基于BERT的神经模型,获取文本并选择最能反映其含义的子集的问题被称为,并且有很多解决方案

另一方面,从技术上讲,您的问题只是二进制标记分类:您将输入文本的每个标记词或其他符号标记为相关或不相关,并训练任何有利于标记此数据的神经网络结构。具体地说,我将研究词性标记的体系结构,因为它们已经得到了很好的研究。通常,它是BiLSTM,可能带有CRF头。更现代的模型是基于预先训练的上下文单词嵌入,比如BERT,你甚至不需要对它们进行微调——只需将其用作特征提取器,并在顶部添加一个BiLSTM。如果你想要一个更轻量级的模型,你可以考虑一个经过预先训练和固定的单词嵌入的美国有线电视新闻网。 最后一个你应该考虑的参数是将单词分类为相关的阈值——也许,默认值0.5不是最佳选择。也许,您不希望保留所有重要概率高于0.5的标记,而是希望保留前k个标记,其中k是固定的,或者是整个文本的某个百分比

当然,更具体的建议是针对数据集的,所以如果您可以共享您的数据集,这将是一个很大的帮助