Web crawler 如何调试Storm Crawler解析过滤器_Web Crawler_Stormcrawler

Web crawler 如何调试Storm Crawler解析过滤器

web-crawler

Web crawler 如何调试Storm Crawler解析过滤器,web-crawler,stormcrawler,Web Crawler,Stormcrawler,我遇到了一种情况，XPathFilter没有解析页面中的某些链接——可能是因为格式错误的HTML 我可以看到链接可以直接用JSoup解析。我想知道是否有一种简单的方法可以通过测试用例/装备来确定XPathFilter看到了什么？您可以使用。它将转储网页的XML表示，这可能会让您了解为什么不使用XPath获取内容。为此，与其他任何ParseFilter一样，将DebugParseFilter添加到parsefilters.json文件中它可能是格式不正确的HTML或动态内容。有没有一种简单的方法

我遇到了一种情况，XPathFilter没有解析页面中的某些链接——可能是因为格式错误的HTML

我可以看到链接可以直接用JSoup解析。我想知道是否有一种简单的方法可以通过测试用例/装备来确定XPathFilter看到了什么？

您可以使用。它将转储网页的XML表示，这可能会让您了解为什么不使用XPath获取内容。为此，与其他任何ParseFilter一样，将DebugParseFilter添加到parsefilters.json文件中

它可能是格式不正确的HTML或动态内容。

有没有一种简单的方法可以在拓扑之外运行它，以避免负载噪音并针对单个目标URL进行解析？不太可能。您可以使用MemorySpout编写一个虚拟拓扑。我们可以向ParserBolt添加一个main方法，就像我们做的那样，例如，用于测试协议。如往常一样欢迎捐款！