Python word2vec如何正确预测单词,但实际数据集不包含它?
我试图理解word2vec如何预测一个单词,给出一个单词列表。 具体来说,我使用以下参数在500条推特的推特数据上训练了我的skip gram模型:Python word2vec如何正确预测单词,但实际数据集不包含它?,python,nlp,word2vec,Python,Nlp,Word2vec,我试图理解word2vec如何预测一个单词,给出一个单词列表。 具体来说,我使用以下参数在500条推特的推特数据上训练了我的skip gram模型: model = gensim.models.Word2Vec(data, window=5, workers=7, sg=1, min_count=10, size=200) 给定单词discrimination和uberx,我得到以下输出: model.wv.most_similar(positive=[PorterStemmer().stem
model = gensim.models.Word2Vec(data, window=5, workers=7, sg=1, min_count=10, size=200)
给定单词discrimination
和uberx
,我得到以下输出:
model.wv.most_similar(positive=[PorterStemmer().stem(WordNetLemmatizer().lemmatize("discrimination", pos='v')), WordNetLemmatizer().lemmatize("uberx", pos='v')], topn=30)
[('discret', 0.7425585985183716),
('fold_wheelchair', 0.7286415696144104),
('illeg_deni', 0.7280288338661194),
('tradit_cab', 0.7262350916862488),
('mobil_aid', 0.7252357602119446),
('accommod_disabl', 0.724936842918396),
('uberwav', 0.720955491065979),
('discrimin_disabl', 0.7206833958625793),
('deni_access', 0.7202375531196594),...]
然而,当我在硬盘上转储的数据集
数据中搜索单词“discrimination”、“uberx”和输出列表中的任何其他单词时,我从未找到包含所有3个单词的数据点的单个实例。因此,我的问题是,如果一个Twitter上从未见过这3个单词,那么该模型如何知道,比如说“住宿残疾”这个词是上下文“歧视”和“UBEX”的正确单词?例如,有两个twitter数据:
(一)
现在是夏天。今天是
现在是。今天很热
(二)
现在是冬天。今天是
现在是。今天很冷
通过训练一个模型来预测空白,模型得知这两个词(冷和冬)或(热和夏天)的表示应该更接近。
同时,也发现“冷”与“夏”之间的距离应该增加,因为当语境包含“冷”时,空白更可能是“冬天”,这反过来又抑制了“夏天”的可能性。
因此,即使没有一个数据包含“冷”和“夏”,模型仍然可以了解这两个词之间的关系
这是我对skip gram的拙见。请随意讨论:(>P)跳过克模型就像填补空白的问题一样。例如,有两个twitter数据:
(一)
现在是夏天。今天是
现在是。今天很热
(二)
现在是冬天。今天是
现在是。今天很冷
通过训练一个模型来预测空白,模型得知这两个词(冷和冬)或(热和夏天)的表示应该更接近。
同时,也发现“冷”与“夏”之间的距离应该增加,因为当语境包含“冷”时,空白更可能是“冬天”,这反过来又抑制了“夏天”的可能性。
因此,即使没有一个数据包含“冷”和“夏”,模型仍然可以了解这两个词之间的关系
这是我对skip gram的拙见。请随意讨论:)我想补充一点:这样做的不仅仅是跳过gram模式,还有可选的CBOW模式。By word2vec的重复训练通过训练数据,将单词表示为密集(或可能是“压缩”)嵌入的强制效应,在一个比所有已知单词的计数小得多的维度空间中,以及隐藏到输出的权重在所有输入到输出预测路径中共享的方式,迫使人们做出类似预测的词语被强迫进入同一个“邻居”,即使它们从未同时出现。(只需要一种与其他类似单词同时出现的模式。)我要补充一句:不仅是skip gram模式有这种表现,还有可选的CBOW模式。By word2vec的重复训练通过训练数据,将单词表示为密集(或可能是“压缩”)嵌入的强制效应,在一个比所有已知单词的计数小得多的维度空间中,以及隐藏到输出的权重在所有输入到输出预测路径中共享的方式,迫使人们做出类似预测的词语被强迫进入同一个“邻居”,即使它们从未同时出现。(只需要与其他类似单词同时出现的模式。)