Nlp 使用Word2vec模型注释词汇表_Nlp_Gensim_Word2vec

Nlp 使用Word2vec模型注释词汇表

nlp

Nlp 使用Word2vec模型注释词汇表,nlp,gensim,word2vec,Nlp,Gensim,Word2vec,我正试图对语料库中的词汇进行注释我已经在语料库上训练了word2vec模型我将基于分数相关的单词分组为关键字，第一个单词作为关键字，其余单词作为单词和分数的2元组列表例如： “咖啡”——钥匙价值观是 [('tea', 0.8139282), ('latte', 0.76456803), ('coffe', 0.7607962), ('lattes', 0.756057), ('starbucks', 0.7158153), ('espresso', 0.71386236),

我正试图对语料库中的词汇进行注释

我已经在语料库上训练了word2vec模型

我将基于分数相关的单词分组为关键字，第一个单词作为关键字，其余单词作为单词和分数的2元组列表

例如： “咖啡”——钥匙价值观是

[('tea', 0.8139282),
 ('latte', 0.76456803),
 ('coffe', 0.7607962),
 ('lattes', 0.756057),
 ('starbucks', 0.7158153),
 ('espresso', 0.71386236),
 ('mocha', 0.69999266),
 ('coffees', 0.6816252),
 ('frappucino', 0.67192864),
 ('cuppa', 0.66720986),
 ('cappucino', 0.6664002),
 ('chai', 0.6623157),
 ('decaf', 0.65980726),
 ('frappuccino', 0.65150374),
 ('venti', 0.6486204),
 ('expresso', 0.6369579),
 ('macchiato', 0.6280453),
 ('scone', 0.62476856),
 ('sippy', 0.6236704),
 ('cappuccino', 0.61718297),
 ('iced', 0.6130485),
 ('hazelnut', 0.6023698),
 ('mug', 0.6004759),
'
'
'
'
'

据我所知，咖啡有拿铁、绿茶、浓缩咖啡和星巴克。。根据以上数据我想给每个单词贴上如下标签

拿铁绿茶浓咖啡星巴克蒂姆霍顿

科希波-

[海波]-

[相关]-该词重复出现

[形态]-形态变体（例如：计算机和计算机）

[Partof]-表示带注释的单词是感兴趣单词的一部分

有什么建议或想法可以帮助我解决这个问题

你能检查并清理你的问题文本格式，让它更清楚你的文本数据、表格数据或期望的输出是什么吗？还请注意，底部的word2vec仅为两个单词之间的相似性提供了一个单一的标量值，没有进一步的相似性限定。因此，仅仅区分上下义、同义词/反义词（甚至反义词在word2vec空间中非常“相似”）、全义词/同义词以及其他微妙的词关系是不够的。（word2vec空间中的指示通常可以模糊地解释，但通常不能用精确的语言来解释。）感谢您的回复@gojomo，我已经对我的问题进行了修改。有没有办法用另一种方法给它们贴上如上所述的标签？我对任何可靠的现成技术都不熟悉——当然不用普通的word2vec，因为正如前面提到的，它的相似性（和相对方向）并不像你想给这些词贴上标签那样精细。当然也有一些研究论文是关于从文本中发现同义词或下义词关系的——但在某些情况下，这些论文是为了寻找指示性短语，如“X和其他Y”或“X是一种Y”。你能检查并清理你的问题文本格式，让它更清楚你的文本数据或表格数据是什么吗，还是期望输出？还请注意，底部的word2vec仅为两个单词之间的相似性提供了一个单一的标量值，没有进一步的相似性限定。因此，仅仅区分上下义、同义词/反义词（甚至反义词在word2vec空间中非常“相似”）、全义词/同义词以及其他微妙的词关系是不够的。（word2vec空间中的指示通常可以模糊地解释，但通常不能用精确的语言来解释。）感谢您的回复@gojomo，我已经对我的问题进行了修改。有没有办法用另一种方法给它们贴上如上所述的标签？我对任何可靠的现成技术都不熟悉——当然不用普通的word2vec，因为正如前面提到的，它的相似性（和相对方向）并不像你想给这些词贴上标签那样精细。当然也有一些研究论文是关于从文本中发现同义词或下义词关系的——但在某些情况下，这些论文是为了寻找指示性短语，比如“X和其他Y”或“X是一种Y”。