Python word2vec如何正确预测单词,但实际数据集不包含它?

Python word2vec如何正确预测单词,但实际数据集不包含它?,python,nlp,word2vec,Python,Nlp,Word2vec,我试图理解word2vec如何预测一个单词,给出一个单词列表。 具体来说,我使用以下参数在500条推特的推特数据上训练了我的skip gram模型: model = gensim.models.Word2Vec(data, window=5, workers=7, sg=1, min_count=10, size=200) 给定单词discrimination和uberx,我得到以下输出: model.wv.most_similar(positive=[PorterStemmer().stem

我试图理解word2vec如何预测一个单词,给出一个单词列表。 具体来说,我使用以下参数在500条推特的推特数据上训练了我的skip gram模型:

model = gensim.models.Word2Vec(data, window=5, workers=7, sg=1, min_count=10, size=200)
给定单词
discrimination
uberx
,我得到以下输出:

model.wv.most_similar(positive=[PorterStemmer().stem(WordNetLemmatizer().lemmatize("discrimination", pos='v')), WordNetLemmatizer().lemmatize("uberx", pos='v')], topn=30)
[('discret', 0.7425585985183716),
 ('fold_wheelchair', 0.7286415696144104),
 ('illeg_deni', 0.7280288338661194),
 ('tradit_cab', 0.7262350916862488),
 ('mobil_aid', 0.7252357602119446),
 ('accommod_disabl', 0.724936842918396),
 ('uberwav', 0.720955491065979),
 ('discrimin_disabl', 0.7206833958625793),
 ('deni_access', 0.7202375531196594),...]

然而,当我在硬盘上转储的数据集
数据
中搜索单词“discrimination”、“uberx”和输出列表中的任何其他单词时,我从未找到包含所有3个单词的数据点的单个实例。因此,我的问题是,如果一个Twitter上从未见过这3个单词,那么该模型如何知道,比如说“住宿残疾”这个词是上下文“歧视”和“UBEX”的正确单词?例如,有两个twitter数据:

(一)

现在是夏天。今天是

现在是。今天很热

(二)

现在是冬天。今天是

现在是。今天很冷

通过训练一个模型来预测空白,模型得知这两个词(冷和冬)或(热和夏天)的表示应该更接近。 同时,也发现“冷”与“夏”之间的距离应该增加,因为当语境包含“冷”时,空白更可能是“冬天”,这反过来又抑制了“夏天”的可能性。 因此,即使没有一个数据包含“冷”和“夏”,模型仍然可以了解这两个词之间的关系


这是我对skip gram的拙见。请随意讨论:(

>P)跳过克模型就像填补空白的问题一样。例如,有两个twitter数据:

(一)

现在是夏天。今天是

现在是。今天很热

(二)

现在是冬天。今天是

现在是。今天很冷

通过训练一个模型来预测空白,模型得知这两个词(冷和冬)或(热和夏天)的表示应该更接近。 同时,也发现“冷”与“夏”之间的距离应该增加,因为当语境包含“冷”时,空白更可能是“冬天”,这反过来又抑制了“夏天”的可能性。 因此,即使没有一个数据包含“冷”和“夏”,模型仍然可以了解这两个词之间的关系


这是我对skip gram的拙见。请随意讨论:)

我想补充一点:这样做的不仅仅是跳过gram模式,还有可选的CBOW模式。By word2vec的重复训练通过训练数据,将单词表示为密集(或可能是“压缩”)嵌入的强制效应,在一个比所有已知单词的计数小得多的维度空间中,以及隐藏到输出的权重在所有输入到输出预测路径中共享的方式,迫使人们做出类似预测的词语被强迫进入同一个“邻居”,即使它们从未同时出现。(只需要一种与其他类似单词同时出现的模式。)我要补充一句:不仅是skip gram模式有这种表现,还有可选的CBOW模式。By word2vec的重复训练通过训练数据,将单词表示为密集(或可能是“压缩”)嵌入的强制效应,在一个比所有已知单词的计数小得多的维度空间中,以及隐藏到输出的权重在所有输入到输出预测路径中共享的方式,迫使人们做出类似预测的词语被强迫进入同一个“邻居”,即使它们从未同时出现。(只需要与其他类似单词同时出现的模式。)