Web crawler 如何调试Storm Crawler解析过滤器

Web crawler 如何调试Storm Crawler解析过滤器,web-crawler,stormcrawler,Web Crawler,Stormcrawler,我遇到了一种情况,XPathFilter没有解析页面中的某些链接——可能是因为格式错误的HTML 我可以看到链接可以直接用JSoup解析。我想知道是否有一种简单的方法可以通过测试用例/装备来确定XPathFilter看到了什么?您可以使用。它将转储网页的XML表示,这可能会让您了解为什么不使用XPath获取内容。为此,与其他任何ParseFilter一样,将DebugParseFilter添加到parsefilters.json文件中 它可能是格式不正确的HTML或动态内容。有没有一种简单的方法

我遇到了一种情况,XPathFilter没有解析页面中的某些链接——可能是因为格式错误的HTML

我可以看到链接可以直接用JSoup解析。我想知道是否有一种简单的方法可以通过测试用例/装备来确定XPathFilter看到了什么?

您可以使用。它将转储网页的XML表示,这可能会让您了解为什么不使用XPath获取内容。为此,与其他任何ParseFilter一样,将DebugParseFilter添加到parsefilters.json文件中


它可能是格式不正确的HTML或动态内容。

有没有一种简单的方法可以在拓扑之外运行它,以避免负载噪音并针对单个目标URL进行解析?不太可能。您可以使用MemorySpout编写一个虚拟拓扑。我们可以向ParserBolt添加一个main方法,就像我们做的那样,例如,用于测试协议。如往常一样欢迎捐款!