Nlp Wiki距离:Wiki主题和类别之间的距离?
维基百科分类/页面之间的距离是否有[方向性的?]概念/实现 例如,考虑:A)“圣路易斯大学”B“大学” 显然,“A”是“B”的一种。如何从Wiki中提取这些内容? 如果提取连接到的所有类别,就会看到Nlp Wiki距离:Wiki主题和类别之间的距离?,nlp,information-retrieval,mediawiki-api,information-extraction,Nlp,Information Retrieval,Mediawiki Api,Information Extraction,维基百科分类/页面之间的距离是否有[方向性的?]概念/实现 例如,考虑:A)“圣路易斯大学”B“大学” 显然,“A”是“B”的一种。如何从Wiki中提取这些内容? 如果提取连接到的所有类别,就会看到 Category:1818 establishments in Missouri Territory Category:Articles containing Latin-language text Category:Association of Catholic Colleges and Un
Category:1818 establishments in Missouri Territory
Category:Articles containing Latin-language text
Category:Association of Catholic Colleges and Universities
Category:Commons category with local link same as on Wikidata
Category:Coordinates on Wikidata
Category:Educational institutions established in 1818
Category:Instances of Infobox university using image size
Category:Jesuit universities and colleges in the United States
Category:Roman Catholic Archdiocese of St. Louis
Category:Roman Catholic universities and colleges in Missouri
并且它不包含任何可以直接连接到B()的内容。但本质上,如果你进一步看,你应该能够找到a和B之间的多跳路径,可能是多跳路径。实现这一目标的流行方式是什么 如果你有完整的维基百科分类法,那么你可以计算两个类别之间的距离(最短路径长度)。如果一个类别是另一个类别的祖先,那么它是直截了当的 否则,您可以找到最不常见的包含项,其定义如下 最不常见的两个概念A和B是最具体的 概念是A和B的祖先 然后通过LCS计算它们之间的距离 我鼓励你们去了解,你们会发现最先进的技术来计算单词之间的语义相似性 资源:我的关于提取维基百科类别/概念的建议可能会对您有所帮助 一个很好的相关例子
使用计算词汇之间的语义相似度。WordNet以分级方式组织英语单词。看这个。它使用八种不同的技术来计算单词之间的语义相似度。我收集的一些想法/资源。如果我找到更多,将更新此 --使用:基于Wiki策划的知识库。它们提供了一个查询这个知识库的方法。但是必须通过SparQL接口模拟所需的相似性/距离行为。有些想法已经过时了,但似乎已经过时了 --使用UMBEL:这是概念的知识图。我认为这个知识图的大小相对较小。但我怀疑它的精确度可能很高。话虽如此,我不知道这与维基百科有什么关系。他们需要计算任何一对概念之间的距离度量(在写这篇文章的时候,他们的相似性API已经关闭,所以目前还不是一个可行的解决方案)
--我不知道他们的算法的细节,也不知道他们是如何做到的,但是他们提供了Wiki概念之间的距离。这也是方向性的。例如和 您可能正在寻找“”关系:(圣路易斯大学的Wikidata项目)是一所大学、一座大楼和一所私立非营利教育机构。您可以使用SPARQL查询它:
- (尽管我怀疑这会产生任何有意义的结果)
ASK
查询的结果(第一个链接)?就像我想看到连接两者的路径一样。第二个查询就是这样做的。如果删除count()
,它将显示路径段。