Nlp 我怎样才能要求NLTK将同义词连接到附近的术语,而不是一个岛屿?

Nlp 我怎样才能要求NLTK将同义词连接到附近的术语,而不是一个岛屿?,nlp,nltk,wordnet,Nlp,Nltk,Wordnet,我正在从事一个NLTK项目,原则上类似于一个标准的同义词表,但(准)连续。举个例子,有几十个条目与书籍有关,包括宗教经典和分类账 我试图摆弄一些术语,但这样做似乎只占了一小部分。(一个“分类账”结果包含“daybook”,但这些物质的集合比一本书要小得多。)文档中对“合成词集”的讨论似乎暗示,你可以找到与现有术语相近的术语,但合成词集就像岛屿,或者对我来说就是这样 什么(如果有的话)意味着“我希望所有单词的匹配分数都高于XYZ阈值”或“我希望匹配n个最接近的相关术语”。文档看起来这是可能的,有一

我正在从事一个NLTK项目,原则上类似于一个标准的同义词表,但(准)连续。举个例子,有几十个条目与书籍有关,包括宗教经典和分类账

我试图摆弄一些术语,但这样做似乎只占了一小部分。(一个“分类账”结果包含“daybook”,但这些物质的集合比一本书要小得多。)文档中对“合成词集”的讨论似乎暗示,你可以找到与现有术语相近的术语,但合成词集就像岛屿,或者对我来说就是这样

什么(如果有的话)意味着“我希望所有单词的匹配分数都高于XYZ阈值”或“我希望匹配n个最接近的相关术语”。文档看起来这是可能的,有一种非常好的方法来计算两个单词之间的接近分数,但是看不到如何调整阈值,或者如何请求n个最接近的匹配


我在这里的最佳选择是什么?

如果你想计算任意对单词之间的距离,WordNet是一个错误的工具:它是一个由特定术语组成的网络,因此两个节点之间要么有路径,要么没有路径。而是四处寻找基于语料库的度量

谷歌给出了一个很快的答案(并非如此),可以作为一个起点

在nltk中,我首先看一看,它似乎位于nltk演示函数
nltk.Text.similor()
的后面。它不会计算词对之间的距离,但至少你可以从丰富的上下文网络开始

>>> contexts = nltk.text.ContextIndex(nltk.corpus.brown.words()[:100000])
>>> contexts.similar_words("fact")
['jury', 'announcement', 'Washington', 'addition', '1961', 'impression', 
'news', 'belief', 'commissioners', 'Laos', 'return', '1959', '1960', '1956',
'result', 'University', 'opinion', 'work', 'course', 'hope']

我将让您删除标点符号、停止词等。我没有研究这背后的算法,但如果这不适合您,您可以始终实现自己喜欢的算法。

如果您希望能够计算任意对单词之间的距离,WordNet是一个错误的作业工具:它是一个由特定术语组成的网络,因此两个节点之间要么有路径,要么没有路径。而是四处寻找基于语料库的度量

谷歌给出了一个很快的答案(并非如此),可以作为一个起点

在nltk中,我首先看一看,它似乎位于nltk演示函数
nltk.Text.similor()
的后面。它不会计算词对之间的距离,但至少你可以从丰富的上下文网络开始

>>> contexts = nltk.text.ContextIndex(nltk.corpus.brown.words()[:100000])
>>> contexts.similar_words("fact")
['jury', 'announcement', 'Washington', 'addition', '1961', 'impression', 
'news', 'belief', 'commissioners', 'Laos', 'return', '1959', '1960', '1956',
'result', 'University', 'opinion', 'work', 'course', 'hope']

我将让您删除标点符号、停止词等。我还没有研究这背后的算法,但如果这不适合您,您可以始终实现自己喜欢的算法。

Hm我并不真正了解您的项目。你到底想达到什么目的?你只是在寻找同义词吗?我想做一些类似的事情。换言之,您可以从一个术语开始,然后导航到含义越来越不同的其他术语。道路和地形的等效条件是,您可以在铺好的道路上行驶,从华盛顿州到佛罗里达州,或从加利福尼亚州到纽约州,只需穿过铺好的道路(不需要吉普车4x4)。想象一下一个更稀疏的道路图,伊利诺伊州的道路不会带你出去,实际上只有两到三个连接的组件。(你能明白为什么我想要一张更密集的图表吗?)嗯,我不太了解你的项目。你到底想达到什么目的?你只是在寻找同义词吗?我想做一些类似的事情。换言之,您可以从一个术语开始,然后导航到含义越来越不同的其他术语。道路和地形的等效条件是,您可以在铺好的道路上行驶,从华盛顿州到佛罗里达州,或从加利福尼亚州到纽约州,只需穿过铺好的道路(不需要吉普车4x4)。想象一下一个更稀疏的道路图,伊利诺伊州的道路不会带你出去,实际上只有两到三个连接的组件。(你能明白为什么我想要一张更密集的图表吗?)嗯,所以我的一些担忧得到了证实。文档似乎提供了多种相似性选项来解决这个问题。你有没有其他的工具可以推荐给这个项目?我没有这方面的经验,所以没有。嗯,所以我的一些担心得到了证实。文档似乎提供了多种相似性选项来解决这个问题。你有没有其他的工具可以推荐给这个项目?我没有这方面的经验,所以没有。