Web scraping 用于从网站提取语义数据的可扩展解决方案?

Web scraping 用于从网站提取语义数据的可扩展解决方案?,web-scraping,nlp,html-parsing,semantic-web,Web Scraping,Nlp,Html Parsing,Semantic Web,比如说,我的磁盘上有(相当多)个网站,它们是从公共爬网(Common Crawl)中抓取的。我没有关于HTML结构的先验知识,假设每个页面的结构都不同(通常是这样)。我想从它们中提取一些语义信息(预先知道),比如带有元数据的文章/帖子(日期、作者、标记、评论等) 一个简单的方法是为每个网站编写一个简单的解析器,如果有高质量的解析库,这应该很容易。但这种方法显然无法扩展。有没有更聪明的办法来解决这个问题?我将如何进行,这项任务的实际困难是什么 如果存在类似的情况,您可以包括付费服务。如果您知道获取

比如说,我的磁盘上有(相当多)个网站,它们是从公共爬网(Common Crawl)中抓取的。我没有关于HTML结构的先验知识,假设每个页面的结构都不同(通常是这样)。我想从它们中提取一些语义信息(预先知道),比如带有元数据的文章/帖子(日期、作者、标记、评论等)

一个简单的方法是为每个网站编写一个简单的解析器,如果有高质量的解析库,这应该很容易。但这种方法显然无法扩展。有没有更聪明的办法来解决这个问题?我将如何进行,这项任务的实际困难是什么

如果存在类似的情况,您可以包括付费服务。如果您知道获取此类数据的更好方法(关于特定主题;而不是手动抓取/普通抓取),请将其包括在内。

试试这个

该工具通过XSLT样式表进行调整,试图从HTML语义丰富的文档中提取一些信息。它只使用通过良好使用HTML4或XHTML1中定义的语义而获得的信息。此工具不考虑HTML5添加的新语义,尤其不识别微数据、微格式或RDFa。

。也就是说,生成一个您可能想要尝试的工具-,您可以在。有RDFa提取器吗