Python Gensim word2vec下采样样本=0_Python_Math_Gensim_Word Embedding_Subsampling

Python Gensim word2vec下采样样本=0

python math

Python Gensim word2vec下采样样本=0,python,math,gensim,word-embedding,subsampling,Python,Math,Gensim,Word Embedding,Subsampling,Gensim word2vec中的sample=0是否意味着在我的培训期间没有使用下采样？文件上说有效范围为（0，1e-5）然而，将阈值设置为0将导致p（wi）等于1，这意味着不会丢弃任何单词，我是否理解正确我正在处理一个相对较小的数据集，其中有7597篇Facebook帖子（18945个单词），使用sample=0而不是推荐范围内的任何东西，我的嵌入性能要好得多。有什么特别的原因吗？文本大小对于Word2Vec培训来说，这似乎是一个非常小的数据集。（是只有18945个独特的单词，还是总

Gensim word2vec中的

sample=0

是否意味着在我的培训期间没有使用下采样？文件上说

有效范围为（0，1e-5）

然而，将阈值设置为0将导致p（wi）等于1，这意味着不会丢弃任何单词，我是否理解正确

我正在处理一个相对较小的数据集，其中有7597篇Facebook帖子（18945个单词），使用

sample=0

而不是推荐范围内的任何东西，我的嵌入性能要好得多。有什么特别的原因吗？文本大小

对于

Word2Vec

培训来说，这似乎是一个非常小的数据集。（是只有18945个独特的单词，还是总共18945个单词，所以每篇文章不超过2个单词？）

抽样在更大的数据集上最为有用——在这些数据集中有如此多的常用词示例，更多的训练示例并不会增加太多内容——但与其他不太常见的词相比，它们从这些词的示例中窃取了时间，并且过多地查看了这些词的示例

是的，

sample=0

表示没有向下采样。

18945个唯一单词。我正在攻读博士学位（数字人文学科），研究定性研究中的单词嵌入应用，它们在这种规模的小数据集上也表现得相当好，至少在我的研究目标上是如此。在这种情况下，目标是对数据和我的假设进行第一次实验探索。然而，作为一名语言学家，我认为比例不会有太大的变化，因为文章和命题不会向我的上下文添加任何语义信息，但是使用不下采样输出精确向量，而使用它输出非常稀疏和“嘈杂”的向量！如果在

INFO

级别启用日志记录，一些输出将指示

sample

值对实际训练字数的影响程度。我认为一些单词分布或其他参数/数据贡献（可能是一个小的

窗口

&许多小的训练文本，每个文本都有大量的降采样频繁单词？）可能会从

示例

中产生一种巨大的效果。但这是默认值<代码>1e-03，应该有这样一个轻微的影响-日志输出将更多地显示有多少单词受到它的影响。