Keras 当使用预先训练好的word2vec-like手套训练NN模型时,词汇是否应限于训练集词汇?

Keras 当使用预先训练好的word2vec-like手套训练NN模型时,词汇是否应限于训练集词汇?,keras,neural-network,word-embedding,glove,Keras,Neural Network,Word Embedding,Glove,我想在神经网络的嵌入层使用单词嵌入,使用手套中预先训练的向量。在构建word2index字典时,是否需要将词汇限制在训练集内? 这不会导致一个有限的、不可概括的模型吗? 考虑手套的所有词汇是推荐的做法吗?是的,最好限制你的词汇量。因为预先训练过的嵌入(比如手套)中有很多不太有用的单词(比如Word2Vec),而且vocab越大,需要的RAM就越多,还有其他问题 从所有数据中选择您的令牌。如果你的数据足够大,它不会导致一个有限的不可归纳的模型。如果您认为您的数据没有需要的那么多令牌,那么您应该知道

我想在神经网络的嵌入层使用单词嵌入,使用手套中预先训练的向量。在构建word2index字典时,是否需要将词汇限制在训练集内? 这不会导致一个有限的、不可概括的模型吗?
考虑手套的所有词汇是推荐的做法吗?

是的,最好限制你的词汇量。因为预先训练过的嵌入(比如手套)中有很多不太有用的单词(比如Word2Vec),而且vocab越大,需要的RAM就越多,还有其他问题

从所有数据中选择您的令牌。如果你的数据足够大,它不会导致一个有限的不可归纳的模型。如果您认为您的数据没有需要的那么多令牌,那么您应该知道两件事:

  • 你的数据不够好,你必须收集更多
  • 你的模型不能很好地生成训练中没有看到的代币!因此,在你的嵌入中有许多未使用的单词是没有意义的,最好收集更多的数据来覆盖这些单词
  • 我有一个答案来说明如何从预先训练的模型中选择一组较小的词向量