Nlp 用于培训Gensim Word2vec模型的每个句子的最小字数

Nlp 用于培训Gensim Word2vec模型的每个句子的最小字数,nlp,gensim,word2vec,hyperparameters,Nlp,Gensim,Word2vec,Hyperparameters,假设我有一个短句语料库,其中的单词数量从1到大约500个,平均单词数量大约是9个。如果我使用window=5(默认值)训练Gensim Word2vec模型,我应该使用所有的句子吗?或者我应该删除字数少的句子?如果是这样,是否有最小字数的经验法则?对于word2vec算法来说,只有一个单词的文本基本上是“空的”:没有相邻的单词,这是所有训练模式所必需的。你可以把它们扔了,但把它们留在里面也没什么害处。他们基本上就是没有行动 任何包含2个或更多单词的文本都有助于培训

假设我有一个短句语料库,其中的单词数量从1到大约500个,平均单词数量大约是9个。如果我使用window=5(默认值)训练Gensim Word2vec模型,我应该使用所有的句子吗?或者我应该删除字数少的句子?如果是这样,是否有最小字数的经验法则?

对于word2vec算法来说,只有一个单词的文本基本上是“空的”:没有相邻的单词,这是所有训练模式所必需的。你可以把它们扔了,但把它们留在里面也没什么害处。他们基本上就是没有行动

任何包含2个或更多单词的文本都有助于培训