从数据挖掘到RDF

从数据挖掘到RDF,rdf,jena,ontology,Rdf,Jena,Ontology,我一直在学习ApacheJena教程,它们非常简单。我的问题是,如果我对文本进行数据挖掘,例如:对于教科书中的每个段落,我都会得到人们的姓名、地点、关键短语等。。。使用本体将这些转换为rdf的最简单方法是什么 假设您已经将实体从文本中提取为字符串(例如,等等),您可以使用Jena中的模型工厂创建一个模型,然后使用model.createResource(uri)填充资源,并使用.addProperty()填充资源上的属性可以在Jena示例和文档中找到。这些示例还显示了如何在RDF中打印模型(通过

我一直在学习ApacheJena教程,它们非常简单。我的问题是,如果我对文本进行数据挖掘,例如:对于教科书中的每个段落,我都会得到人们的姓名、地点、关键短语等。。。使用本体将这些转换为rdf的最简单方法是什么

假设您已经将实体从文本中提取为字符串(例如,等等),您可以使用Jena中的
模型工厂
创建一个模型,然后使用
model.createResource(uri)
填充资源,并使用
.addProperty()填充资源上的属性
可以在Jena示例和文档中找到。这些示例还显示了如何在RDF中打印模型(通过语句迭代并使用
stmt.getSubject()
stmt.getPredicate()
,和
stmt.getObject())
。就本体论而言,您可以发明自己的本体论,或者更好地使用现有词汇表。例如,假设您决定使用schema.org中的Person类。然后您需要指定资源的
rdf:type
https://schema.org/Person。同样,您也可以使用诸如
https://schema.org/name
继承自
https://schema.org/Thing
(如图所示)。您不一定需要将本体存在于模型或数据库中,只要您使用URI正确构造实例,从您使用的词汇表或本体中识别类和属性。如果您确实有编程需求,您可以在模型中使用词汇表,但我想您应该看看)。

ha,如果有人知道如何将原始文本可靠地转换为语义数据就好了!基本上,你需要人类,或者一个同样聪明的人工智能。恐怕你的问题不是很具体。。。似乎不太适合StackOverflow。RDF是三元组,因此,必须从文本中提取三元组。这是一项正在进行的研究,对于100%准确率+召回率的一般情况,永远不会得到解决。