Python Gensim word2vec下采样样本=0

Python Gensim word2vec下采样样本=0,python,math,gensim,word-embedding,subsampling,Python,Math,Gensim,Word Embedding,Subsampling,Gensim word2vec中的sample=0是否意味着在我的培训期间没有使用下采样?文件上说 有效范围为(0,1e-5) 然而,将阈值设置为0将导致p(wi)等于1,这意味着不会丢弃任何单词,我是否理解正确 我正在处理一个相对较小的数据集,其中有7597篇Facebook帖子(18945个单词),使用sample=0而不是推荐范围内的任何东西,我的嵌入性能要好得多。有什么特别的原因吗?文本大小 对于Word2Vec培训来说,这似乎是一个非常小的数据集。(是只有18945个独特的单词,还是总

Gensim word2vec中的
sample=0
是否意味着在我的培训期间没有使用下采样?文件上说

有效范围为(0,1e-5)

然而,将阈值设置为0将导致p(wi)等于1,这意味着不会丢弃任何单词,我是否理解正确


我正在处理一个相对较小的数据集,其中有7597篇Facebook帖子(18945个单词),使用
sample=0
而不是推荐范围内的任何东西,我的嵌入性能要好得多。有什么特别的原因吗?文本大小

对于
Word2Vec
培训来说,这似乎是一个非常小的数据集。(是只有18945个独特的单词,还是总共18945个单词,所以每篇文章不超过2个单词?)

抽样在更大的数据集上最为有用——在这些数据集中有如此多的常用词示例,更多的训练示例并不会增加太多内容——但与其他不太常见的词相比,它们从这些词的示例中窃取了时间,并且过多地查看了这些词的示例


是的,
sample=0
表示没有向下采样。

18945个唯一单词。我正在攻读博士学位(数字人文学科),研究定性研究中的单词嵌入应用,它们在这种规模的小数据集上也表现得相当好,至少在我的研究目标上是如此。在这种情况下,目标是对数据和我的假设进行第一次实验探索。然而,作为一名语言学家,我认为比例不会有太大的变化,因为文章和命题不会向我的上下文添加任何语义信息,但是使用不下采样输出精确向量,而使用它输出非常稀疏和“嘈杂”的向量!如果在
INFO
级别启用日志记录,一些输出将指示
sample
值对实际训练字数的影响程度。我认为一些单词分布或其他参数/数据贡献(可能是一个小的
窗口
&许多小的训练文本,每个文本都有大量的降采样频繁单词?)可能会从
示例
中产生一种巨大的效果。但这是默认值<代码>1e-03,应该有这样一个轻微的影响-日志输出将更多地显示有多少单词受到它的影响。