Web scraping 如何使用语义web模式识别站点?

Web scraping 如何使用语义web模式识别站点?,web-scraping,web-crawler,search-engine,semantic-web,schema.org,Web Scraping,Web Crawler,Search Engine,Semantic Web,Schema.org,我正在开发一个基于schema.org的语义web搜索引擎。我的问题是如何有效地索引哪些网站使用特定的模式,例如FoodestStablish 目标是确定/开发域到模式的映射,以便对特定模式用法(例如用法:1000到10000个域)的描述可以完全明确 编辑#1 我想在架构之上构建,它目前被设计用来标识Studio.Org类的一个子集。这看起来是一个很好的起点…这个问题可能太宽泛了。即使只问三个相关领域(爬行、抓取、加工)中的一个这样的开放性问题,也可能过于宽泛。也许你可以更具体一点?你知道它是

我正在开发一个基于schema.org的语义web搜索引擎。我的问题是如何有效地索引哪些网站使用特定的模式,例如FoodestStablish

目标是确定/开发域到模式的映射,以便对特定模式用法(例如
用法:1000到10000个域
)的描述可以完全明确


编辑#1


我想在架构之上构建,它目前被设计用来标识Studio.Org类的一个子集。这看起来是一个很好的起点…

这个问题可能太宽泛了。即使只问三个相关领域(爬行、抓取、加工)中的一个这样的开放性问题,也可能过于宽泛。也许你可以更具体一点?你知道它是怎么工作的吗?谢谢,我明白了。我已经更新了一个相关链接,链接到其他试图构建这样一个体系结构的人。如果需要,我将更新一个更具体的问题。