Nlp 使用Word2vec模型注释词汇表

Nlp 使用Word2vec模型注释词汇表,nlp,gensim,word2vec,Nlp,Gensim,Word2vec,我正试图对语料库中的词汇进行注释 我已经在语料库上训练了word2vec模型 我将基于分数相关的单词分组为关键字,第一个单词作为关键字,其余单词作为单词和分数的2元组列表 例如: “咖啡”——钥匙 价值观是 [('tea', 0.8139282), ('latte', 0.76456803), ('coffe', 0.7607962), ('lattes', 0.756057), ('starbucks', 0.7158153), ('espresso', 0.71386236),

我正试图对语料库中的词汇进行注释

  • 我已经在语料库上训练了word2vec模型

  • 我将基于分数相关的单词分组为关键字,第一个单词作为关键字,其余单词作为单词和分数的2元组列表

  • 例如: “咖啡”——钥匙 价值观是

    [('tea', 0.8139282),
     ('latte', 0.76456803),
     ('coffe', 0.7607962),
     ('lattes', 0.756057),
     ('starbucks', 0.7158153),
     ('espresso', 0.71386236),
     ('mocha', 0.69999266),
     ('coffees', 0.6816252),
     ('frappucino', 0.67192864),
     ('cuppa', 0.66720986),
     ('cappucino', 0.6664002),
     ('chai', 0.6623157),
     ('decaf', 0.65980726),
     ('frappuccino', 0.65150374),
     ('venti', 0.6486204),
     ('expresso', 0.6369579),
     ('macchiato', 0.6280453),
     ('scone', 0.62476856),
     ('sippy', 0.6236704),
     ('cappuccino', 0.61718297),
     ('iced', 0.6130485),
     ('hazelnut', 0.6023698),
     ('mug', 0.6004759),
    '
    '
    '
    '
    '
    
    据我所知,咖啡有拿铁、绿茶、浓缩咖啡和星巴克。。根据以上数据 我想给每个单词贴上如下标签

    拿铁绿茶浓咖啡星巴克蒂姆霍顿

    科希波-

    [海波]-

    [相关]-该词重复出现

    [形态]-形态变体(例如:计算机和计算机)

    [Partof]-表示带注释的单词是感兴趣单词的一部分


    有什么建议或想法可以帮助我解决这个问题

    你能检查并清理你的问题文本格式,让它更清楚你的文本数据、表格数据或期望的输出是什么吗?还请注意,底部的word2vec仅为两个单词之间的相似性提供了一个单一的标量值,没有进一步的相似性限定。因此,仅仅区分上下义、同义词/反义词(甚至反义词在word2vec空间中非常“相似”)、全义词/同义词以及其他微妙的词关系是不够的。(word2vec空间中的指示通常可以模糊地解释,但通常不能用精确的语言来解释。)感谢您的回复@gojomo,我已经对我的问题进行了修改。有没有办法用另一种方法给它们贴上如上所述的标签?我对任何可靠的现成技术都不熟悉——当然不用普通的word2vec,因为正如前面提到的,它的相似性(和相对方向)并不像你想给这些词贴上标签那样精细。当然也有一些研究论文是关于从文本中发现同义词或下义词关系的——但在某些情况下,这些论文是为了寻找指示性短语,如“X和其他Y”或“X是一种Y”。你能检查并清理你的问题文本格式,让它更清楚你的文本数据或表格数据是什么吗,还是期望输出?还请注意,底部的word2vec仅为两个单词之间的相似性提供了一个单一的标量值,没有进一步的相似性限定。因此,仅仅区分上下义、同义词/反义词(甚至反义词在word2vec空间中非常“相似”)、全义词/同义词以及其他微妙的词关系是不够的。(word2vec空间中的指示通常可以模糊地解释,但通常不能用精确的语言来解释。)感谢您的回复@gojomo,我已经对我的问题进行了修改。有没有办法用另一种方法给它们贴上如上所述的标签?我对任何可靠的现成技术都不熟悉——当然不用普通的word2vec,因为正如前面提到的,它的相似性(和相对方向)并不像你想给这些词贴上标签那样精细。当然也有一些研究论文是关于从文本中发现同义词或下义词关系的——但在某些情况下,这些论文是为了寻找指示性短语,比如“X和其他Y”或“X是一种Y”。