R：本体和web抽取的数据结构_R_Data Structures_Semantic Web_Ontology_Information Extraction

R：本体和web抽取的数据结构

r data-structures

R：本体和web抽取的数据结构,r,data-structures,semantic-web,ontology,information-extraction,R,Data Structures,Semantic Web,Ontology,Information Extraction,我想从一个大型网站中提取信息并生成一个本体。可以用描述逻辑处理的东西对于提取的html数据，什么样的数据结构是可取的我的想法： -使用数据帧、表结构 -集合和关系（集合和良好关系） -图表最后，我想导出数据，并计划使用另一种编程语言使用谓词逻辑（或描述逻辑）对其进行处理我想使用R从html页面中提取信息。但据我所知，R（或包）中不直接支持谓词逻辑或RDF/OWL 因此，我需要进行提取，在此过程中使用一些数据结构并导出数据示例数据： SomeDocument rdf:type PDFD

我想从一个大型网站中提取信息并生成一个本体。可以用描述逻辑处理的东西

对于提取的html数据，什么样的数据结构是可取的

我的想法：
-使用数据帧、表结构
-集合和关系（集合和良好关系）
-图表

最后，我想导出数据，并计划使用另一种编程语言使用谓词逻辑（或描述逻辑）对其进行处理

我想使用R从html页面中提取信息。但据我所知，R（或包）中不直接支持谓词逻辑或RDF/OWL

因此，我需要进行提取，在此过程中使用一些数据结构并导出数据

示例数据：

SomeDocument rdf:type PDFDocument
PDFDocument rdfs:subClassOf Document
SomeDocument isUsedAt DepartmentA

DepartmentA rdf:type Department
PersonA rdf:type Person
PersonA headOf DepartmentA

PersonA hasName "John"

其中实例数据为“SomeDocument”、“DepartmentA”和“PersonA”

如果它有意义，某种推理（但可能不是R）：

如果需要下载很多页面，我会使用WGET来下载。为了处理这些文件，我将使用Perl脚本将数据转换为更可读的格式，例如逗号分隔的格式。然后我会使用一些编程语言，以您描述的方式进行组合，但是，在这方面我不会选择R。

最重要的是您的网站数据是什么样的？例如，如果它已经含有RDFa，你可以使用RDFa蒸馏器来提取RDF；易于理解的完成。然后您可以将RDF推入一个三重存储。您可以通过创建您自己的本体来扩充网站的数据，您可以使用SPARQL查询本体，如果您的本体与您在网站上找到的数据生成等价的类，那么您就是黄金。许多triple Store可以单独通过URL作为SPARQL端点查询，并以XML格式返回，因此即使R本身没有SPARQL或OWL ontolgoy包，也并不意味着您根本无法查询数据。

这实际上取决于您要提取的功能。结果应该是什么样的？好的，我添加了一些示例日期。（现在在发布的末尾）考虑考虑SimultOffFuff.com。

AccessedOften(SomeDocument) => ImportantDocument(SomeDocument)