Plugins Nutch解析器插件收集联系信息

Plugins Nutch解析器插件收集联系信息,plugins,nutch,Plugins,Nutch,我正在从事一个项目,需要确定公司网站上的联系点,并用于增强安全性 现在,我设法使用ApacheNutch对多个站点进行了爬网。下一步是解析HTML页面并定位联系人信息所在的位置。在这种情况下,我只对电子邮件地址和电话号码感兴趣 这就是我计划要做的,我们可以编写一个map reduce作业来解析HTML文件,并使用正则表达式与Jsoup/Beautifulsoup HTML解析器组合来查找正则表达式 然而,我想知道是否有任何解析器插件已经被实现,并且可能被测试用于此目的 您不需要编写自定义map

我正在从事一个项目,需要确定公司网站上的联系点,并用于增强安全性

现在,我设法使用ApacheNutch对多个站点进行了爬网。下一步是解析HTML页面并定位联系人信息所在的位置。在这种情况下,我只对电子邮件地址和电话号码感兴趣

这就是我计划要做的,我们可以编写一个map reduce作业来解析HTML文件,并使用正则表达式与Jsoup/Beautifulsoup HTML解析器组合来查找正则表达式


然而,我想知道是否有任何解析器插件已经被实现,并且可能被测试用于此目的

您不需要编写自定义map reduce作业。只需实现一个定制的HTMLPasseFilter,如果需要正则表达式,它将为您提供一个DOM,以便在文档的文本上运行XPath表达式

几年前,我为一位客户做过类似的工作,发现有许多页面实现了schema.org。您可以使用Xpath编写一个自定义HTMLPase过滤器,从微数据中提取标准化信息。您可以将What is for StormCrawler作为如何利用Apache Any23提取微数据的示例

如果您想要一种NLP更密集的方法,可以使用ApacheUIMA或GATE等工具来处理Nutch段