Python word2vec如何正确预测单词，但实际数据集不包含它？_Python_Nlp_Word2vec

Python word2vec如何正确预测单词，但实际数据集不包含它？

python nlp

Python word2vec如何正确预测单词，但实际数据集不包含它？,python,nlp,word2vec,Python,Nlp,Word2vec,我试图理解word2vec如何预测一个单词，给出一个单词列表。具体来说，我使用以下参数在500条推特的推特数据上训练了我的skip gram模型： model = gensim.models.Word2Vec(data, window=5, workers=7, sg=1, min_count=10, size=200) 给定单词discrimination和uberx，我得到以下输出： model.wv.most_similar(positive=[PorterStemmer().stem

我试图理解word2vec如何预测一个单词，给出一个单词列表。具体来说，我使用以下参数在500条推特的推特数据上训练了我的skip gram模型：

model = gensim.models.Word2Vec(data, window=5, workers=7, sg=1, min_count=10, size=200)

给定单词

discrimination

和

uberx

，我得到以下输出：

model.wv.most_similar(positive=[PorterStemmer().stem(WordNetLemmatizer().lemmatize("discrimination", pos='v')), WordNetLemmatizer().lemmatize("uberx", pos='v')], topn=30)
[('discret', 0.7425585985183716),
 ('fold_wheelchair', 0.7286415696144104),
 ('illeg_deni', 0.7280288338661194),
 ('tradit_cab', 0.7262350916862488),
 ('mobil_aid', 0.7252357602119446),
 ('accommod_disabl', 0.724936842918396),
 ('uberwav', 0.720955491065979),
 ('discrimin_disabl', 0.7206833958625793),
 ('deni_access', 0.7202375531196594),...]

然而，当我在硬盘上转储的数据集

数据中搜索单词“discrimination”、“uberx”和输出列表中的任何其他单词时，我从未找到包含所有3个单词的数据点的单个实例。因此，我的问题是，如果一个Twitter上从未见过这3个单词，那么该模型如何知道，比如说“住宿残疾”这个词是上下文“歧视”和“UBEX”的正确单词？例如，有两个twitter数据：
(一)
现在是夏天。今天是
现在是。今天很热
(二)
现在是冬天。今天是
现在是。今天很冷
通过训练一个模型来预测空白，模型得知这两个词（冷和冬）或（热和夏天）的表示应该更接近。
同时，也发现“冷”与“夏”之间的距离应该增加，因为当语境包含“冷”时，空白更可能是“冬天”，这反过来又抑制了“夏天”的可能性。
因此，即使没有一个数据包含“冷”和“夏”，模型仍然可以了解这两个词之间的关系
这是我对skip gram的拙见。请随意讨论：（
＞P）跳过克模型就像填补空白的问题一样。例如，有两个twitter数据：
(一)
现在是夏天。今天是
现在是。今天很热
(二)
现在是冬天。今天是
现在是。今天很冷
通过训练一个模型来预测空白，模型得知这两个词（冷和冬）或（热和夏天）的表示应该更接近。
同时，也发现“冷”与“夏”之间的距离应该增加，因为当语境包含“冷”时，空白更可能是“冬天”，这反过来又抑制了“夏天”的可能性。
因此，即使没有一个数据包含“冷”和“夏”，模型仍然可以了解这两个词之间的关系
这是我对skip gram的拙见。请随意讨论：）
我想补充一点：这样做的不仅仅是跳过gram模式，还有可选的CBOW模式。By word2vec的重复训练通过训练数据，将单词表示为密集（或可能是“压缩”）嵌入的强制效应，在一个比所有已知单词的计数小得多的维度空间中，以及隐藏到输出的权重在所有输入到输出预测路径中共享的方式，迫使人们做出类似预测的词语被强迫进入同一个“邻居”，即使它们从未同时出现。（只需要一种与其他类似单词同时出现的模式。）我要补充一句：不仅是skip gram模式有这种表现，还有可选的CBOW模式。By word2vec的重复训练通过训练数据，将单词表示为密集（或可能是“压缩”）嵌入的强制效应，在一个比所有已知单词的计数小得多的维度空间中，以及隐藏到输出的权重在所有输入到输出预测路径中共享的方式，迫使人们做出类似预测的词语被强迫进入同一个“邻居”，即使它们从未同时出现。（只需要与其他类似单词同时出现的模式。）