Nlp 训练网络查找相似的文本体

Nlp 训练网络查找相似的文本体,nlp,nltk,gensim,spacy,doc2vec,Nlp,Nltk,Gensim,Spacy,Doc2vec,我有多个文本文件,我正试图找到一种方法来识别类似的文本体。文件本身由一个“平均”大小的段落组成。除此之外,我还有一些数据可以作为数据的标签,如果我要深入神经网络的根,比如Saimes网络 虽然这是一种选择,但我想知道的另一种可能性是使用doc2vec之类的东西来处理所有段落(删除stopwords等),然后尝试根据doc2vec中的余弦查找类似的文本文件 我想知道上面所概述的方法一般是如何根据它们产生的结果进行比较的,并且DOC2VEC足够健壮并且足够精确,认为这是可行的选择吗?另外,我可能忽略

我有多个文本文件,我正试图找到一种方法来识别类似的文本体。文件本身由一个“平均”大小的段落组成。除此之外,我还有一些数据可以作为数据的标签,如果我要深入神经网络的根,比如Saimes网络

虽然这是一种选择,但我想知道的另一种可能性是使用doc2vec之类的东西来处理所有段落(删除stopwords等),然后尝试根据doc2vec中的余弦查找类似的文本文件


我想知道上面所概述的方法一般是如何根据它们产生的结果进行比较的,并且DOC2VEC足够健壮并且足够精确,认为这是可行的选择吗?另外,我可能忽略了一个很好的方法。

gensim库中名为Doc2Vec的“段落向量”算法可以解决这个问题。你不必删除停止词。对于非常小的文档(少于10-20个单词)或小的语料库(少于100000个文档),结果可能有点不稳定

考虑到你有标签,Facebook对word2vec的FastText精化还包括一个“分类器”模式,它优化了单词向量,不仅可以预测它们的邻居,还可以很好地预测已知的标签,同时对一系列文本的所有单词向量取平均值。它们也值得一试

对于任何一组词向量,一个称为“词移动者距离”的计算给出了文本之间相似性的有趣度量。但是,根据所有候选匹配进行计算是昂贵的

还有许多其他的技术——有“快速发送”、“sent2vec”、“跳过思维向量”和更多的改进。哪种方法最有效通常取决于您的语料库和特定的最终目标,以及您可以如何调整语料库和算法,包括“相似性”的哪些方面对您的用户最重要。你真的必须尝试它们,然后根据你的项目目标进行严格的评估

你所说的“相似的正文”是什么意思?以棒球为例,你想1。说明两份文件是否都是关于棒球2的。说明两份文件是否与第三场棒球赛有关。说明两个文档是否基本上是相同的文本,或者4。还有别的吗?