Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/340.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Word2Vec和Gensim参数等价性_Python_Nlp_Neural Network_Gensim_Word2vec - Fatal编程技术网

Python Word2Vec和Gensim参数等价性

Python Word2Vec和Gensim参数等价性,python,nlp,neural-network,gensim,word2vec,Python,Nlp,Neural Network,Gensim,Word2vec,Gensim是Word2Vec的优化python端口(请参阅) 我目前正在使用这些向量: 我将与gensim一起重新运行模型训练,因为他们的模型中有一些嘈杂的标记。因此,我想找出gensim中word2vec的一些等效参数 他们在word2vec中使用的参数是: 2字上下文窗口,PMI加权,无压缩,300K维度 当我训练Word2Vec模型时,gensim等价物是什么 是: >>> model = Word2Vec(sentences, size=300000, windo

Gensim是Word2Vec的优化python端口(请参阅)

我目前正在使用这些向量:

我将与gensim一起重新运行模型训练,因为他们的模型中有一些嘈杂的标记。因此,我想找出
gensim
word2vec
的一些等效参数

他们在
word2vec
中使用的参数是:

  • 2字上下文窗口,PMI加权,无压缩,300K维度
当我训练Word2Vec模型时,gensim等价物是什么

是:

>>> model = Word2Vec(sentences, size=300000, window=2, min_count=5, workers=4)
gensim中是否有PMI权重选项?

word2vec中使用的默认最小计数是多少?

word2vec中还有另外一组参数:

  • 5字上下文窗口,10个负样本,子样本,400维
gensim中是否有负采样参数?

gensim中的子采样的参数等价性是什么?

  • 您链接到的论文比较了许多方案中的单词嵌入,包括连续单词包(CBOW)。CBOW是Gensim的“word2vec”模型中实现的模型之一。本文还讨论了通过奇异值分解和各种加权方案得到的单词嵌入,其中一些涉及PMI。SVD和word2vec之间没有等价性,但是如果您想在gensim中进行SVD,那么在自然语言处理中进行SVD被称为“LSA”或“潜在语义分析”

  • 可以看到,
    minu count
    参数默认设置为5

  • 负采样和分层Softmax是估计离散空间上概率分布的两种近似推理方法(在正常Softmax计算成本过高时使用)。Gensim的
    word2vec
    实现了这两个功能。默认情况下,它使用分层softmax,但您可以通过将hyperparameter
    负值
    设置为大于零来使用负采样。这也记录在gensim代码的注释中


  • 请解释为什么这个问题太宽泛了?在任何意义上,它都非常特定于API的使用,并找出是否存在未记录的隐藏参数以及word2vec工具的python端口之间的参数等价性