Nlp 使用Word2vec模型注释词汇表
我正试图对语料库中的词汇进行注释Nlp 使用Word2vec模型注释词汇表,nlp,gensim,word2vec,Nlp,Gensim,Word2vec,我正试图对语料库中的词汇进行注释 我已经在语料库上训练了word2vec模型 我将基于分数相关的单词分组为关键字,第一个单词作为关键字,其余单词作为单词和分数的2元组列表 例如: “咖啡”——钥匙 价值观是 [('tea', 0.8139282), ('latte', 0.76456803), ('coffe', 0.7607962), ('lattes', 0.756057), ('starbucks', 0.7158153), ('espresso', 0.71386236),
[('tea', 0.8139282),
('latte', 0.76456803),
('coffe', 0.7607962),
('lattes', 0.756057),
('starbucks', 0.7158153),
('espresso', 0.71386236),
('mocha', 0.69999266),
('coffees', 0.6816252),
('frappucino', 0.67192864),
('cuppa', 0.66720986),
('cappucino', 0.6664002),
('chai', 0.6623157),
('decaf', 0.65980726),
('frappuccino', 0.65150374),
('venti', 0.6486204),
('expresso', 0.6369579),
('macchiato', 0.6280453),
('scone', 0.62476856),
('sippy', 0.6236704),
('cappuccino', 0.61718297),
('iced', 0.6130485),
('hazelnut', 0.6023698),
('mug', 0.6004759),
'
'
'
'
'
据我所知,咖啡有拿铁、绿茶、浓缩咖啡和星巴克。。根据以上数据
我想给每个单词贴上如下标签
拿铁绿茶浓咖啡星巴克蒂姆霍顿
科希波-
[海波]-
[相关]-该词重复出现
[形态]-形态变体(例如:计算机和计算机)
[Partof]-表示带注释的单词是感兴趣单词的一部分
有什么建议或想法可以帮助我解决这个问题你能检查并清理你的问题文本格式,让它更清楚你的文本数据、表格数据或期望的输出是什么吗?还请注意,底部的word2vec仅为两个单词之间的相似性提供了一个单一的标量值,没有进一步的相似性限定。因此,仅仅区分上下义、同义词/反义词(甚至反义词在word2vec空间中非常“相似”)、全义词/同义词以及其他微妙的词关系是不够的。(word2vec空间中的指示通常可以模糊地解释,但通常不能用精确的语言来解释。)感谢您的回复@gojomo,我已经对我的问题进行了修改。有没有办法用另一种方法给它们贴上如上所述的标签?我对任何可靠的现成技术都不熟悉——当然不用普通的word2vec,因为正如前面提到的,它的相似性(和相对方向)并不像你想给这些词贴上标签那样精细。当然也有一些研究论文是关于从文本中发现同义词或下义词关系的——但在某些情况下,这些论文是为了寻找指示性短语,如“X和其他Y”或“X是一种Y”。你能检查并清理你的问题文本格式,让它更清楚你的文本数据或表格数据是什么吗,还是期望输出?还请注意,底部的word2vec仅为两个单词之间的相似性提供了一个单一的标量值,没有进一步的相似性限定。因此,仅仅区分上下义、同义词/反义词(甚至反义词在word2vec空间中非常“相似”)、全义词/同义词以及其他微妙的词关系是不够的。(word2vec空间中的指示通常可以模糊地解释,但通常不能用精确的语言来解释。)感谢您的回复@gojomo,我已经对我的问题进行了修改。有没有办法用另一种方法给它们贴上如上所述的标签?我对任何可靠的现成技术都不熟悉——当然不用普通的word2vec,因为正如前面提到的,它的相似性(和相对方向)并不像你想给这些词贴上标签那样精细。当然也有一些研究论文是关于从文本中发现同义词或下义词关系的——但在某些情况下,这些论文是为了寻找指示性短语,比如“X和其他Y”或“X是一种Y”。