Python WordNet是否有;级别“;?(NLP)

Python WordNet是否有;级别“;?(NLP),python,text,nlp,words,wordnet,Python,Text,Nlp,Words,Wordnet,例如 鸡是一种动物 玉米煎饼是一种食物 WordNet允许您执行“is-a”…层次结构功能 然而,我怎么知道什么时候停止爬树呢?我想要一个等级。 这是一贯的 例如,如果呈现一堆单词,我希望wordNet对所有单词进行分类,但在某个级别,所以不会太高。把“玉米煎饼”归类为“东西”太宽泛了,而“墨西哥包装食品”却太具体了。我想上一级或下一级直到正确的级别。WordNet是一个词典而不是一个本体,所以“级别”并不真正适用 有,这是一个与WordNet相关的上层本体,如果你想要一个有向晶格而不是网络 对

例如

鸡是一种动物
玉米煎饼是一种食物

WordNet允许您执行“is-a”…层次结构功能

然而,我怎么知道什么时候停止爬树呢?我想要一个等级。
这是一贯的


例如,如果呈现一堆单词,我希望wordNet对所有单词进行分类,但在某个级别,所以不会太高。把“玉米煎饼”归类为“东西”太宽泛了,而“墨西哥包装食品”却太具体了。我想上一级或下一级直到正确的级别。

WordNet是一个词典而不是一个本体,所以“级别”并不真正适用

有,这是一个与WordNet相关的上层本体,如果你想要一个有向晶格而不是网络

对于某些领域,相扑的中级本体论可能是你想看的地方,但我不确定它是否有“墨西哥包装食品”,因为它的大部分主题是科学或工程

WordNet的层次结构是

beef burrito < burrito < dish/2 < victuals < food < substance < entity. 
牛肉卷饼<卷饼<菜/2<食品<食品<物质<实体。

实体是一个顶级概念,所以如果你在实体下面停一个,你就会得到玉米煎饼。你可以根据这一点来计算一个等级,但它不一定像相扑那样一致,也不一定能生成你自己的一套有用的中级概念来终止。WordNet中没有“墨西哥包装食品”步骤

为了获得级别,您需要预定义每个级别的内容。本体论通常将这些定义为一个特定概念的直接子概念,但如果没有,您需要自己开发一种方法

下一步是为每个概念设置优先级,以防您只想为每个单词呈现一个类别。优先级可以通过多种方式完成,例如,类别和单词之间的关系计数,或者手动选择每个类别的优先级。对于每个单词,您可以选择优先级最高的类别。例如,你可能希望肉成为“食物”,而不是化学物质


您可能还想挑选一些单词,如果它们在路径中,它们会改变优先级。例如,如果你想要一些同样是食物的化学物质,被宣布为化学物质,但其他的应该仍然是食物。

[请相信皮特·科克汉姆,他首先提到了相扑,这很可能回答了亚历克斯的问题,作品]

(我只是在这里提供补充信息;我从一个评论字段开始,但很快就没有空间和布局功能了…)


亚历克斯:相扑的大部分是科学还是工程学?它不包含日常用语,如食物、人、汽车、工作等?

Pete K:相扑是上层本体。页面上列出的中级本体论(你会发现“thing”和“beef burrito”之间的概念)不包括食品,但反映了资助该项目的组织类型。有一个面向人的中级本体。还有一个是针对工业(因此也包括工作),包括食品供应商,但如果你不相信的话,就不要提墨西哥煎饼了

我的两分钱
WordNet(3.0,即最新版本和旧版本)100%映射到相扑,这可能正是Alex所需要的。与相扑(或者更确切地说是与米洛)相关的中级本体论有效地存在于特定领域,目前并不包括食品,但由于WordNet确实(包括所有——好吧,许多——这些日常事物),您不需要在“相扑”下利用任何正式本体论,而是使用相扑的WordNet映射(可能除了WordNet之外,WordNet也不是一个本体论,但其非正式和松散的“层次结构”也可能有所帮助

然而,从两个方面(然后是一些;-)?)可能会出现一些困难:

  • 相扑本体的“等级”可能不是你在特定应用中所考虑的等级。例如,虽然“煎饼”带来了“食物”,但相扑本体的顶级实体“鸡”带来了很好的“鸡”,而鸡只能通过一条长链找到“动物”(具体来说:鸡->家禽->鸟->温血脊椎动物->脊椎动物)
  • Wordnet的覆盖范围和元数据令人印象深刻,但关于中级概念可能有点不一致。例如,“我们的”玉米煎饼的缩略词是适当的“Dish”,这为它提供了大约140种食物菜肴,其中包括仿制药,如“汤”或“砂锅菜”以及“鸡肉马伦哥”(但省略了说明)"鸡食"
我提出这些问题的目的不是批评WordNet或SUMO及其相关的本体论,而是简单地说明与构建本体论相关的一些挑战,特别是在中级阶段


尽管基于SUMO和WordNet的解决方案存在一些可能的缺陷和不足,但这些框架的实用性使用可能“符合要求”(85%的情况)

WordNet的hypernym树以单词“entity”的单根语法集结尾“。如果您使用的是WordNet的C库,那么您可以使用
traceptrs\u ds
为语法集的祖先获取一个while递归结构,并且您可以通过递归地跟踪
nextss
ptrlst
指针来获取整个语法集树,直到您点击
null
指针为止。

对不起,请问哪种工具可以进行判断?”句子的“难易程度”?
我希望找出句子的“相似难度”供用户阅读。

相扑的大部分是科学或工程?它不包含日常词汇,如食物、人、汽车、工作等?相扑是一个高级本体论。中级本体论(你可以在其中找到“东西”和“牛肉煎饼”之间的概念)页面上列出的内容不包括食品,但反映了资助该项目的组织类型。有一个面向人的中级本体论。还有一个面向行业(因此也包括就业)的本体论,包括食品供应