Nlp 在整个语料库上训练词向量?

Nlp 在整个语料库上训练词向量?,nlp,deep-learning,word2vec,word-embedding,Nlp,Deep Learning,Word2vec,Word Embedding,我正在我的语料库上训练word2vec模型,我的一个朋友问我在整个语料库上训练word2vec模型是否正确?因为在创建单词嵌入时,我使用的是整个语料库,所以基本上我将测试信息以这些向量的形式泄漏到我的网络中,这在训练神经网络时并不理想 相反,假设我正在使用来自谷歌或任何其他来源的预先训练的单词嵌入,如果他们在创建这些嵌入时使用了相同的文档,我将使用这些文档来测试我的网络,我无论如何都会泄漏信息 所以我的问题是,训练单词2VEC的正确方法是什么 在创建字向量之前分离测试和训练数据 在整个语料库上

我正在我的语料库上训练word2vec模型,我的一个朋友问我在整个语料库上训练word2vec模型是否正确?因为在创建单词嵌入时,我使用的是整个语料库,所以基本上我将测试信息以这些向量的形式泄漏到我的网络中,这在训练神经网络时并不理想

相反,假设我正在使用来自谷歌或任何其他来源的预先训练的单词嵌入,如果他们在创建这些嵌入时使用了相同的文档,我将使用这些文档来测试我的网络,我无论如何都会泄漏信息

所以我的问题是,训练单词2VEC的正确方法是什么

  • 在创建字向量之前分离测试和训练数据

  • 在整个语料库上创建词向量


这完全取决于您计划如何处理这些向量。我已经描述了上述场景。我计划用它来训练深层神经网络