Python Word2Vec和Gensim参数等价性_Python_Nlp_Neural Network_Gensim_Word2vec

Python Word2Vec和Gensim参数等价性

python nlp neural-network

Python Word2Vec和Gensim参数等价性,python,nlp,neural-network,gensim,word2vec,Python,Nlp,Neural Network,Gensim,Word2vec,Gensim是Word2Vec的优化python端口（请参阅）我目前正在使用这些向量：我将与gensim一起重新运行模型训练，因为他们的模型中有一些嘈杂的标记。因此，我想找出gensim中word2vec的一些等效参数他们在word2vec中使用的参数是： 2字上下文窗口，PMI加权，无压缩，300K维度当我训练Word2Vec模型时，gensim等价物是什么是： >>> model = Word2Vec(sentences, size=300000, windo

Gensim是Word2Vec的优化python端口（请参阅）

我目前正在使用这些向量：

我将与gensim一起重新运行模型训练，因为他们的模型中有一些嘈杂的标记。因此，我想找出

gensim

中

word2vec

的一些等效参数

他们在

word2vec

中使用的参数是：

2字上下文窗口，PMI加权，无压缩，300K维度

当我训练Word2Vec模型时，gensim等价物是什么

是：

>>> model = Word2Vec(sentences, size=300000, window=2, min_count=5, workers=4)

gensim中是否有PMI权重选项？

word2vec中使用的默认最小计数是多少？

word2vec中还有另外一组参数：

5字上下文窗口，10个负样本，子样本，400维

gensim中是否有负采样参数？

gensim中的子采样的参数等价性是什么？

您链接到的论文比较了许多方案中的单词嵌入，包括连续单词包（CBOW）。CBOW是Gensim的“word2vec”模型中实现的模型之一。本文还讨论了通过奇异值分解和各种加权方案得到的单词嵌入，其中一些涉及PMI。SVD和word2vec之间没有等价性，但是如果您想在gensim中进行SVD，那么在自然语言处理中进行SVD被称为“LSA”或“潜在语义分析”

可以看到，

minu count

参数默认设置为5

负采样和分层Softmax是估计离散空间上概率分布的两种近似推理方法（在正常Softmax计算成本过高时使用）。Gensim的

word2vec

实现了这两个功能。默认情况下，它使用分层softmax，但您可以通过将hyperparameter

负值

设置为大于零来使用负采样。这也记录在gensim代码的注释中

请解释为什么这个问题太宽泛了？在任何意义上，它都非常特定于API的使用，并找出是否存在未记录的隐藏参数以及word2vec工具的python端口之间的参数等价性