Nlp 将word2vec偏向特殊语料库

Nlp 将word2vec偏向特殊语料库,nlp,gensim,word2vec,Nlp,Gensim,Word2vec,我是新来的。请原谅我的英语不好 我正在使用word2vec进行一个学校项目。我想使用特定领域的语料库(如物理教科书)使用Word2Vec创建单词向量。由于语料库的规模较小,这种独立的方法不能提供很好的结果。当我们想对课本词汇表之外的单词进行评估时,这尤其令人痛心 我们希望教科书对特定领域的关系和语义“接近度”进行编码。在这本教科书中,“量子”和“海森堡”对于eg来说尤其接近,但对于背景语料库来说可能并不适用。为了处理通用词(如“any”),我们需要基本的背景模型(如谷歌在word2vec网站上提

我是新来的。请原谅我的英语不好

我正在使用word2vec进行一个学校项目。我想使用特定领域的语料库(如物理教科书)使用Word2Vec创建单词向量。由于语料库的规模较小,这种独立的方法不能提供很好的结果。当我们想对课本词汇表之外的单词进行评估时,这尤其令人痛心

我们希望教科书对特定领域的关系和语义“接近度”进行编码。在这本教科书中,“量子”和“海森堡”对于eg来说尤其接近,但对于背景语料库来说可能并不适用。为了处理通用词(如“any”),我们需要基本的背景模型(如谷歌在word2vec网站上提供的模型)

有没有什么方法可以用我们新的语料库取代背景模型。仅仅在语料库等方面进行培训并不奏效


是否有人试图将两个语料库中的向量表示结合起来——通用和专用。我在搜索中找不到

我们来谈谈gensim,因为你用它来标记你的问题。可以使用gensim在python中加载以前训练过的模型。然后你继续训练它。它有用吗

# load from previous gensim file:
model = gensim.models.Word2Vec.load(fname)
# or from word2vec c format:
# model = gensim.models.Word2Vec.load_word2vec_format('/path/vectors.bin', binary=True)

# continue training:
model.train(other_sentences)
model.save(fname)

我已经试过了,但是向语料库中添加新文档的行为与我一起训练整套新旧文档的行为相同。我想对这套新文件有更多的重视(或偏见?),我不完全确定你所说的“重视”和“偏见”是什么意思。如果你想让你的新语料库在模型中有一个更好的印象,也许一种方法就是引导。或者换句话说,你不止一次地训练某个句子。另一种解决方案可能是修改学习率
model.alpha=model.alpha*偏差
。但这可能会带来其他影响,具体取决于语料库。