Web 查找网页的主题

Web 查找网页的主题,web,web-scraping,rdf,ontology,Web,Web Scraping,Rdf,Ontology,我感兴趣的是找到随机网页的主题或主题,并将其链接到RDF数据库(如dbpedia)中的实体。我想知道是否有任何工具/库可以做到这一点,或者以前是否有人尝试过这样做?您基本上追求的是命名实体识别工具。有许多免费和商业服务可用,例如,或通过。我的一些同事对这些服务有自己的经验 对于互连部分,您通常会使用诸如或的框架;很快,将有一个通过EC FP7项目LATC提供的。免责声明:我是LATC项目协调员,丝绸/酸橙是LATC联盟成员的产品。OpenLink Virtuoso已经通过其(RDFizer)元盒

我感兴趣的是找到随机网页的主题或主题,并将其链接到RDF数据库(如dbpedia)中的实体。我想知道是否有任何工具/库可以做到这一点,或者以前是否有人尝试过这样做?

您基本上追求的是命名实体识别工具。有许多免费和商业服务可用,例如,或通过。我的一些同事对这些服务有自己的经验


对于互连部分,您通常会使用诸如或的框架;很快,将有一个通过EC FP7项目LATC提供的。免责声明:我是LATC项目协调员,丝绸/酸橙是LATC联盟成员的产品。

OpenLink Virtuoso已经通过其(RDFizer)元盒带为OpenCalais、Alchemy、Pingar和DBPedia Spotlight实现了这一点。也就是说,你给它一个页面,它向上面的站点询问实体,它根据已识别的实体给你三倍


(免责声明:我应该知道。)

查找网页主题可能最接近(参见同名维基百科页面)。其中一个子任务是关键词提取(KE)。KE将从输入文本中返回与该文本项重要/突出/相关的子字符串(短语)。如果假设命名实体通常是输入文本主题的关键,那么命名实体识别(NER)将是另一个可能的子任务。NER将返回实体名称以及实体类型的子字符串

从您的描述来看,似乎您要寻找的不仅仅是KE或NER,正如您提到的链接到知识库(KB),如DBpedia。一个叫做dbpediaspotlight的工具正是这样做的。您可以将其配置为在输入文本中查找每个DBpedia资源,或者仅查找关键字短语、仅查找命名实体等。所有这些都将在最后链接到DBpedia。请查看:

还有其他工具,如AlchemiAPI、Zemanta、WikiMachine、Evri、HeadUp、Enrycher等。但据我所知,DBpedia Spotlight是唯一一个免费的开源工具(Apache V2),允许您配置短语识别和消歧行为。
(免责声明:我是DBpedia Spotlight的共同创建者)

我认为您的问题可能被认为是“没有建设性的”,但无论如何:有没有对您有用的答案?你能选择它作为答案吗?