Web scraping 用于从网站提取语义数据的可扩展解决方案？_Web Scraping_Nlp_Html Parsing_Semantic Web

Web scraping 用于从网站提取语义数据的可扩展解决方案？

web-scraping nlp

Web scraping 用于从网站提取语义数据的可扩展解决方案？,web-scraping,nlp,html-parsing,semantic-web,Web Scraping,Nlp,Html Parsing,Semantic Web,比如说，我的磁盘上有（相当多）个网站，它们是从公共爬网（Common Crawl）中抓取的。我没有关于HTML结构的先验知识，假设每个页面的结构都不同（通常是这样）。我想从它们中提取一些语义信息（预先知道），比如带有元数据的文章/帖子（日期、作者、标记、评论等）一个简单的方法是为每个网站编写一个简单的解析器，如果有高质量的解析库，这应该很容易。但这种方法显然无法扩展。有没有更聪明的办法来解决这个问题？我将如何进行，这项任务的实际困难是什么如果存在类似的情况，您可以包括付费服务。如果您知道获取

比如说，我的磁盘上有（相当多）个网站，它们是从公共爬网（Common Crawl）中抓取的。我没有关于HTML结构的先验知识，假设每个页面的结构都不同（通常是这样）。我想从它们中提取一些语义信息（预先知道），比如带有元数据的文章/帖子（日期、作者、标记、评论等）

一个简单的方法是为每个网站编写一个简单的解析器，如果有高质量的解析库，这应该很容易。但这种方法显然无法扩展。有没有更聪明的办法来解决这个问题？我将如何进行，这项任务的实际困难是什么

如果存在类似的情况，您可以包括付费服务。如果您知道获取此类数据的更好方法（关于特定主题；而不是手动抓取/普通抓取），请将其包括在内。

试试这个

该工具通过XSLT样式表进行调整，试图从HTML语义丰富的文档中提取一些信息。它只使用通过良好使用HTML4或XHTML1中定义的语义而获得的信息。此工具不考虑HTML5添加的新语义，尤其不识别微数据、微格式或RDFa。

。也就是说，生成一个您可能想要尝试的工具-，您可以在。有RDFa提取器吗