R:本体和web抽取的数据结构

R:本体和web抽取的数据结构,r,data-structures,semantic-web,ontology,information-extraction,R,Data Structures,Semantic Web,Ontology,Information Extraction,我想从一个大型网站中提取信息并生成一个本体。可以用描述逻辑处理的东西 对于提取的html数据,什么样的数据结构是可取的 我的想法: -使用数据帧、表结构 -集合和关系(集合和良好关系) -图表 最后,我想导出数据,并计划使用另一种编程语言使用谓词逻辑(或描述逻辑)对其进行处理 我想使用R从html页面中提取信息。但据我所知,R(或包)中不直接支持谓词逻辑或RDF/OWL 因此,我需要进行提取,在此过程中使用一些数据结构并导出数据 示例数据: SomeDocument rdf:type PDFD

我想从一个大型网站中提取信息并生成一个本体。可以用描述逻辑处理的东西

对于提取的html数据,什么样的数据结构是可取的

我的想法:
-使用数据帧、表结构
-集合和关系(集合和良好关系)
-图表

最后,我想导出数据,并计划使用另一种编程语言使用谓词逻辑(或描述逻辑)对其进行处理

我想使用R从html页面中提取信息。但据我所知,R(或包)中不直接支持谓词逻辑或RDF/OWL

因此,我需要进行提取,在此过程中使用一些数据结构并导出数据

示例数据:

SomeDocument rdf:type PDFDocument
PDFDocument rdfs:subClassOf Document
SomeDocument isUsedAt DepartmentA

DepartmentA rdf:type Department
PersonA rdf:type Person
PersonA headOf DepartmentA

PersonA hasName "John"
其中实例数据为“SomeDocument”、“DepartmentA”和“PersonA”

如果它有意义,某种推理(但可能不是R):


如果需要下载很多页面,我会使用WGET来下载。为了处理这些文件,我将使用Perl脚本将数据转换为更可读的格式,例如逗号分隔的格式。然后我会使用一些编程语言,以您描述的方式进行组合,但是,在这方面我不会选择R。

最重要的是您的网站数据是什么样的?例如,如果它已经含有RDFa,你可以使用RDFa蒸馏器来提取RDF;易于理解的完成。然后您可以将RDF推入一个三重存储。您可以通过创建您自己的本体来扩充网站的数据,您可以使用SPARQL查询本体,如果您的本体与您在网站上找到的数据生成等价的类,那么您就是黄金。许多triple Store可以单独通过URL作为SPARQL端点查询,并以XML格式返回,因此即使R本身没有SPARQL或OWL ontolgoy包,也并不意味着您根本无法查询数据。

这实际上取决于您要提取的功能。结果应该是什么样的?好的,我添加了一些示例日期。(现在在发布的末尾)考虑考虑SimultOffFuff.com。
AccessedOften(SomeDocument) => ImportantDocument(SomeDocument)