Nlp Word2Vec在基于文本的剽窃检测方面是否比WordNet或任何其他单词嵌入（如GloVe、fastText等）更有效？_Nlp_Wordnet_Word2vec_Word Embedding_Plagiarism Detection

Nlp Word2Vec在基于文本的剽窃检测方面是否比WordNet或任何其他单词嵌入（如GloVe、fastText等）更有效？

nlp

Nlp Word2Vec在基于文本的剽窃检测方面是否比WordNet或任何其他单词嵌入（如GloVe、fastText等）更有效？,nlp,wordnet,word2vec,word-embedding,plagiarism-detection,Nlp,Wordnet,Word2vec,Word Embedding,Plagiarism Detection,我是学习Word2Vec的初学者，刚开始从互联网上学习Word2Vec。我已经阅读了Quora和StackOverflow中的几乎所有问题，但没有从前面的问题中得到答案。所以我的问题是- 1。是否可以将word2vec应用于剽窃检测？ 2.如果可能的话，Word2Vec在基于文本的剽窃检测中会比WordNet或任何其他单词嵌入（如手套、fastText等）更有效吗？提前感谢。是的，这些单词含义的“密集嵌入”模型（如Word2Vec）在剽窃检测中可能会很有用。（它们还可能有助于混淆来自简单检测器的

我是学习Word2Vec的初学者，刚开始从互联网上学习Word2Vec。我已经阅读了Quora和StackOverflow中的几乎所有问题，但没有从前面的问题中得到答案。所以我的问题是- 1。是否可以将word2vec应用于剽窃检测？ 2.如果可能的话，Word2Vec在基于文本的剽窃检测中会比WordNet或任何其他单词嵌入（如手套、fastText等）更有效吗？提前感谢。

是的，这些单词含义的“密集嵌入”模型（如Word2Vec）在剽窃检测中可能会很有用。（它们还可能有助于混淆来自简单检测器的剽窃行为，因为它们可以帮助对现有文本进行自动转换，从而在保持意思相似的同时更改单词。）

只有在一个特定的系统中进行测试并进行定量评估，您才能确定它的工作情况，或者知道一个特定的嵌入是比WordNet更好还是更差

在word2vec、fastttext和GloVE中，结果可能非常相似——它们都使用大致相同的信息（滑动上下文窗口中的单词共现）来生成最大预测性单词向量——因此它们在类似的训练数据中表现得非常相似

任何差异都是微妙的——对于非常大的词汇表，非手套选项可能更有效；在某些模式下，fasttext本质上是word2vec，但为子词ngrams建模（这有助于为将来的词汇表外单词创建比随机向量更好的向量）或为分类问题优化向量添加了新选项

但是，如果训练过程针对您的任务进行了类似的元优化，那么可以使用大量训练数据训练的已知单词向量的能力将非常相似

这样的问题往往没有一个单一的答案。如果您有一个任务和一个数据集，您可以应用各种方法，选择最有效的方法，尝试了解其他方法的缺点。你问这个问题似乎也是因为你不完全了解这些方法是如何工作的，以及剽窃检测任务是什么。因此，我觉得与其在So或Quora上寻找答案，不如阅读一些基本的ML/NLP书籍或学习在线课程——它们会逐步引入主题，因此更容易学习。