Nlp 了解函数build_vocab在Doc2Vec中的作用

Nlp 了解函数build_vocab在Doc2Vec中的作用,nlp,data-science,gensim,text-classification,doc2vec,Nlp,Data Science,Gensim,Text Classification,Doc2vec,我最近开始研究Doc2Vec模型。 我已经了解了它的机理和工作原理。 我正在尝试使用gensim框架来实现它。 我已将我的培训数据转换为TaggedDocument。 但我有一个问题: 这一行的角色是什么?model\u dbow.build\u vocab([TQM(train\u taged.values)中的x代表x)]? 是创建表示文本的随机向量吗? 感谢您的帮助在完全分配和初始化训练语料库之前,Doc2Vec模型需要了解有关训练语料库的几件事 首先,模型需要知道出现的单词及其频率(一个

我最近开始研究Doc2Vec模型。 我已经了解了它的机理和工作原理。 我正在尝试使用gensim框架来实现它。 我已将我的培训数据转换为TaggedDocument。 但我有一个问题: 这一行的角色是什么?
model\u dbow.build\u vocab([TQM(train\u taged.values)中的x代表x)]
? 是创建表示文本的随机向量吗?
感谢您的帮助

在完全分配和初始化训练语料库之前,
Doc2Vec
模型需要了解有关训练语料库的几件事

首先,模型需要知道出现的单词及其频率(一个工作词汇表),以便确定在应用
min_count
下限后将保留的单词,并为相关单词分配/初始化单词向量和内部模型结构。词频还将用于影响否定词示例的随机采样(对于默认的否定采样模式)和非常频繁的词的下采样(根据
sample
参数)

此外,模型需要知道整个训练集的大致大小,以便在每个历元的过程中逐渐降低内部
alpha
学习率,并在日志输出中给出有意义的进度估计

build\u vocab()
的末尾,已经创建了模型所需的所有内存/对象。根据基础算法的需要,所有向量将被初始化为低幅度随机向量,以准备模型进行训练。(通过培训,它基本上不会在内部使用更多内存。)

此外,在
build\u vocab()
之后,词汇表将被冻结:在训练(或以后的推理)过程中出现的任何单词都将被忽略,这些单词不在模型中