Nlp Wiki距离:Wiki主题和类别之间的距离?

Nlp Wiki距离:Wiki主题和类别之间的距离?,nlp,information-retrieval,mediawiki-api,information-extraction,Nlp,Information Retrieval,Mediawiki Api,Information Extraction,维基百科分类/页面之间的距离是否有[方向性的?]概念/实现 例如,考虑:A)“圣路易斯大学”B“大学” 显然,“A”是“B”的一种。如何从Wiki中提取这些内容? 如果提取连接到的所有类别,就会看到 Category:1818 establishments in Missouri Territory Category:Articles containing Latin-language text Category:Association of Catholic Colleges and Un

维基百科分类/页面之间的距离是否有[方向性的?]概念/实现

例如,考虑:A)“圣路易斯大学”B“大学”

显然,“A”是“B”的一种。如何从Wiki中提取这些内容? 如果提取连接到的所有类别,就会看到

Category:1818 establishments in Missouri Territory 
Category:Articles containing Latin-language text 
Category:Association of Catholic Colleges and Universities
Category:Commons category with local link same as on Wikidata
Category:Coordinates on Wikidata 
Category:Educational institutions established in 1818
Category:Instances of Infobox university using image size
Category:Jesuit universities and colleges in the United States
Category:Roman Catholic Archdiocese of St. Louis
Category:Roman Catholic universities and colleges in Missouri

并且它不包含任何可以直接连接到B()的内容。但本质上,如果你进一步看,你应该能够找到a和B之间的多跳路径,可能是多跳路径。实现这一目标的流行方式是什么

如果你有完整的维基百科分类法,那么你可以计算两个类别之间的距离(最短路径长度)。如果一个类别是另一个类别的祖先,那么它是直截了当的

否则,您可以找到最不常见的包含项,其定义如下

最不常见的两个概念A和B是最具体的 概念是A和B的祖先

然后通过LCS计算它们之间的距离

我鼓励你们去了解,你们会发现最先进的技术来计算单词之间的语义相似性

资源:我的关于提取维基百科类别/概念的建议可能会对您有所帮助

一个很好的相关例子


使用计算词汇之间的语义相似度。WordNet以分级方式组织英语单词。看这个。它使用八种不同的技术来计算单词之间的语义相似度。

我收集的一些想法/资源。如果我找到更多,将更新此

--使用:基于Wiki策划的知识库。它们提供了一个查询这个知识库的方法。但是必须通过SparQL接口模拟所需的相似性/距离行为。有些想法已经过时了,但似乎已经过时了

--使用UMBEL:这是概念的知识图。我认为这个知识图的大小相对较小。但我怀疑它的精确度可能很高。话虽如此,我不知道这与维基百科有什么关系。他们需要计算任何一对概念之间的距离度量(在写这篇文章的时候,他们的相似性API已经关闭,所以目前还不是一个可行的解决方案)


--我不知道他们的算法的细节,也不知道他们是如何做到的,但是他们提供了Wiki概念之间的距离。这也是方向性的。例如和

您可能正在寻找“”关系:(圣路易斯大学的Wikidata项目)是一所大学、一座大楼和一所私立非营利教育机构。您可以使用SPARQL查询它:

  • (尽管我怀疑这会产生任何有意义的结果)

您可以考虑查看我的关于提取维基百科类层次结构的项目——@ WASIAMAD,您的项目与通过MeaWiki API访问Wiki信息有什么不同?我的项目不使用任何API,它直接从Wiki DUP中提取类别层次结构。我的一项研究工作需要整个Wiki类别层次结构,所以我开发了这个项目。DBPedia?这是非常好的@Tgr!还可以使用DBPedia编写第一个查询的等效形式吗?我不熟悉DBPedia。我的总体印象是,他们有更多的数据,但它更平坦(主要是infobox参数-值对),所以它不太适合这样的查询。。。但这可能是完全错误的。我明白了,谢谢@Tgr。另一个。如何打印
ASK
查询的结果(第一个链接)?就像我想看到连接两者的路径一样。第二个查询就是这样做的。如果删除
count()
,它将显示路径段。