Keras 当使用预先训练好的word2vec-like手套训练NN模型时,词汇是否应限于训练集词汇?
我想在神经网络的嵌入层使用单词嵌入,使用手套中预先训练的向量。在构建word2index字典时,是否需要将词汇限制在训练集内? 这不会导致一个有限的、不可概括的模型吗?Keras 当使用预先训练好的word2vec-like手套训练NN模型时,词汇是否应限于训练集词汇?,keras,neural-network,word-embedding,glove,Keras,Neural Network,Word Embedding,Glove,我想在神经网络的嵌入层使用单词嵌入,使用手套中预先训练的向量。在构建word2index字典时,是否需要将词汇限制在训练集内? 这不会导致一个有限的、不可概括的模型吗? 考虑手套的所有词汇是推荐的做法吗?是的,最好限制你的词汇量。因为预先训练过的嵌入(比如手套)中有很多不太有用的单词(比如Word2Vec),而且vocab越大,需要的RAM就越多,还有其他问题 从所有数据中选择您的令牌。如果你的数据足够大,它不会导致一个有限的不可归纳的模型。如果您认为您的数据没有需要的那么多令牌,那么您应该知道
考虑手套的所有词汇是推荐的做法吗?是的,最好限制你的词汇量。因为预先训练过的嵌入(比如手套)中有很多不太有用的单词(比如Word2Vec),而且vocab越大,需要的RAM就越多,还有其他问题 从所有数据中选择您的令牌。如果你的数据足够大,它不会导致一个有限的不可归纳的模型。如果您认为您的数据没有需要的那么多令牌,那么您应该知道两件事: