Nlp Word2Vec在基于文本的剽窃检测方面是否比WordNet或任何其他单词嵌入(如GloVe、fastText等)更有效?

Nlp Word2Vec在基于文本的剽窃检测方面是否比WordNet或任何其他单词嵌入(如GloVe、fastText等)更有效?,nlp,wordnet,word2vec,word-embedding,plagiarism-detection,Nlp,Wordnet,Word2vec,Word Embedding,Plagiarism Detection,我是学习Word2Vec的初学者,刚开始从互联网上学习Word2Vec。我已经阅读了Quora和StackOverflow中的几乎所有问题,但没有从前面的问题中得到答案。所以我的问题是- 1。是否可以将word2vec应用于剽窃检测? 2.如果可能的话,Word2Vec在基于文本的剽窃检测中会比WordNet或任何其他单词嵌入(如手套、fastText等)更有效吗?提前感谢。是的,这些单词含义的“密集嵌入”模型(如Word2Vec)在剽窃检测中可能会很有用。(它们还可能有助于混淆来自简单检测器的

我是学习Word2Vec的初学者,刚开始从互联网上学习Word2Vec。我已经阅读了Quora和StackOverflow中的几乎所有问题,但没有从前面的问题中得到答案。所以我的问题是- 1。是否可以将word2vec应用于剽窃检测? 2.如果可能的话,Word2Vec在基于文本的剽窃检测中会比WordNet或任何其他单词嵌入(如手套、fastText等)更有效吗?提前感谢。

是的,这些单词含义的“密集嵌入”模型(如Word2Vec)在剽窃检测中可能会很有用。(它们还可能有助于混淆来自简单检测器的剽窃行为,因为它们可以帮助对现有文本进行自动转换,从而在保持意思相似的同时更改单词。)

只有在一个特定的系统中进行测试并进行定量评估,您才能确定它的工作情况,或者知道一个特定的嵌入是比WordNet更好还是更差

在word2vec、fastttext和GloVE中,结果可能非常相似——它们都使用大致相同的信息(滑动上下文窗口中的单词共现)来生成最大预测性单词向量——因此它们在类似的训练数据中表现得非常相似

任何差异都是微妙的——对于非常大的词汇表,非手套选项可能更有效;在某些模式下,fasttext本质上是word2vec,但为子词ngrams建模(这有助于为将来的词汇表外单词创建比随机向量更好的向量)或为分类问题优化向量添加了新选项


但是,如果训练过程针对您的任务进行了类似的元优化,那么可以使用大量训练数据训练的已知单词向量的能力将非常相似

这样的问题往往没有一个单一的答案。如果您有一个任务和一个数据集,您可以应用各种方法,选择最有效的方法,尝试了解其他方法的缺点。你问这个问题似乎也是因为你不完全了解这些方法是如何工作的,以及剽窃检测任务是什么。因此,我觉得与其在So或Quora上寻找答案,不如阅读一些基本的ML/NLP书籍或学习在线课程——它们会逐步引入主题,因此更容易学习。