Nlp 了解函数build_vocab在Doc2Vec中的作用_Nlp_Data Science_Gensim_Text Classification_Doc2vec

Nlp 了解函数build_vocab在Doc2Vec中的作用

nlp

Nlp 了解函数build_vocab在Doc2Vec中的作用,nlp,data-science,gensim,text-classification,doc2vec,Nlp,Data Science,Gensim,Text Classification,Doc2vec,我最近开始研究Doc2Vec模型。我已经了解了它的机理和工作原理。我正在尝试使用gensim框架来实现它。我已将我的培训数据转换为TaggedDocument。但我有一个问题：这一行的角色是什么？model\u dbow.build\u vocab（[TQM（train\u taged.values）中的x代表x）]？是创建表示文本的随机向量吗？感谢您的帮助在完全分配和初始化训练语料库之前，Doc2Vec模型需要了解有关训练语料库的几件事首先，模型需要知道出现的单词及其频率（一个

我最近开始研究Doc2Vec模型。我已经了解了它的机理和工作原理。我正在尝试使用gensim框架来实现它。我已将我的培训数据转换为TaggedDocument。但我有一个问题：这一行的角色是什么？

model\u dbow.build\u vocab（[TQM（train\u taged.values）中的x代表x）]

？是创建表示文本的随机向量吗？

感谢您的帮助

在完全分配和初始化训练语料库之前，

Doc2Vec

模型需要了解有关训练语料库的几件事

首先，模型需要知道出现的单词及其频率（一个工作词汇表），以便确定在应用

min_count

下限后将保留的单词，并为相关单词分配/初始化单词向量和内部模型结构。词频还将用于影响否定词示例的随机采样（对于默认的否定采样模式）和非常频繁的词的下采样（根据

sample

参数）

此外，模型需要知道整个训练集的大致大小，以便在每个历元的过程中逐渐降低内部

alpha

学习率，并在日志输出中给出有意义的进度估计

在

build\u vocab（）

的末尾，已经创建了模型所需的所有内存/对象。根据基础算法的需要，所有向量将被初始化为低幅度随机向量，以准备模型进行训练。（通过培训，它基本上不会在内部使用更多内存。）

此外，在

build\u vocab（）

之后，词汇表将被冻结：在训练（或以后的推理）过程中出现的任何单词都将被忽略，这些单词不在模型中