Data structures 什么';这是一个很好的数据结构来存储和使用同义词表吗?

Data structures 什么';这是一个很好的数据结构来存储和使用同义词表吗?,data-structures,similarity,directed-acyclic-graphs,word-embedding,thesaurus,Data Structures,Similarity,Directed Acyclic Graphs,Word Embedding,Thesaurus,我在一个英语同义词表项目上工作了几年,该项目结合了一些资源(例如WordNet、Wiktionary同义词表、Moby同义词表、Word2vec)来制作一个大型同义词表。目前,我将数据定义为列表列表。每个链接都有一个分数(越高=越强),因此“酒店”和“客栈”的分数可能为2.0;但“旅馆”和“跳蚤袋”的得分为0.2。高分是近义词,低分是更遥远的联想。我已经能够使用Dijkstra和A*找到单词之间的链接(所谓的“同义词链”) 是否有一种图形数据库和/或分析工具最适合此类数据?词语关系的强项往往是不

我在一个英语同义词表项目上工作了几年,该项目结合了一些资源(例如WordNet、Wiktionary同义词表、Moby同义词表、Word2vec)来制作一个大型同义词表。目前,我将数据定义为列表列表。每个链接都有一个分数(越高=越强),因此“酒店”和“客栈”的分数可能为2.0;但“旅馆”和“跳蚤袋”的得分为0.2。高分是近义词,低分是更遥远的联想。我已经能够使用Dijkstra和A*找到单词之间的链接(所谓的“同义词链”)

是否有一种图形数据库和/或分析工具最适合此类数据?词语关系的强项往往是不对称的。例如,“胡佛大坝”与“赫伯特胡佛”的链接比“赫伯特胡佛”与“胡佛大坝”的链接更紧密。我对更好的方法感兴趣,可以找到单词之间的联系,找到不相关的单词,测量单词的相似性


如果有任何新的指示/方向,我将不胜感激。

有趣的问题。不确定最佳数据结构,但对于处理,您可以查看此包中的shell邻居: