Rdf 我如何在语义上表示一般的、提取的文本?

Rdf 我如何在语义上表示一般的、提取的文本?,rdf,semantic-web,owl,semantic-markup,schema.org,Rdf,Semantic Web,Owl,Semantic Markup,Schema.org,我正在从事一个项目,该项目从网页中提取内容,并将这些内容规范化为一组离散的类型。现在我只处理文本和图像 对于图像,我发现,这似乎很合适 但是,对于文本,我不确定使用什么。除了原始数据类型,我在schema.org上找不到任何表示泛型文本的内容。我不熟悉链接的语义数据,不确定原语是否打算用作完整类型 此外,我希望能够通过它们在源网页上的使用来区分文本片段。例如,我希望能够指定一个文本范围是段落文本,而另一个是标题文本。在schema.org上有,也包括,但没有wpparagph,或WPTextFr

我正在从事一个项目,该项目从网页中提取内容,并将这些内容规范化为一组离散的类型。现在我只处理文本和图像

对于图像,我发现,这似乎很合适

但是,对于文本,我不确定使用什么。除了原始数据类型,我在schema.org上找不到任何表示泛型文本的内容。我不熟悉链接的语义数据,不确定原语是否打算用作完整类型

此外,我希望能够通过它们在源网页上的使用来区分文本片段。例如,我希望能够指定一个文本范围是段落文本,而另一个是标题文本。在schema.org上有,也包括,但没有wpparagph,或WPTextFragment,或类似的东西


我看过其他词汇表,但不确定哪一个适合。最重要的是,我希望使用一些已经存在并且人们已经认识到的东西。

你看过W3C的开放注释本体吗?(). 目前它只是一个草稿,但它可以帮助您注释文本片段。它还允许您声明从哪个文档中提取了注释的文本和所有权(即它们的出处)。我认为它不包括诸如“header”之类的术语,但它有选择器,用于指定要注释的带注释网页/文档的具体部分:


它还提供了注释图像区域()的机制。它可以是你想要的简单或复杂。

你想过使用
文章
标签吗?嘿,这不是我见过的东西,看起来很有前途,至少很有趣。非常感谢你!