Web crawler 如何添加(集成)crawljax和crawl4j?

Web crawler 如何添加(集成)crawljax和crawl4j?,web-crawler,google-crawlers,crawler4j,Web Crawler,Google Crawlers,Crawler4j,我正在开发网络爬虫,它使用crawler4j从网站获取数据,一切都很顺利,但主要问题是基于ajax的事件。所以,我发现crawljax库确实起到了这个作用,但我不知道何时何地使用它 我什么时候用过它(我指的是工作顺序) 在使用crawler4j获取页面之前 或 使用crawler4j获取页面后 或 我使用crawler4j来使用url,并使用crawljax来获取Ajax数据(页面) 该库基本上是一个用于自身目的的爬虫程序。集成到crawler4j需要您进行大量手动操作 我建议您在cr

我正在开发网络爬虫,它使用crawler4j从网站获取数据,一切都很顺利,但主要问题是基于ajax的事件。所以,我发现crawljax库确实起到了这个作用,但我不知道何时何地使用它

我什么时候用过它(我指的是工作顺序)

  • 在使用crawler4j获取页面之前

  • 使用crawler4j获取页面后

  • 我使用crawler4j来使用url,并使用crawljax来获取Ajax数据(页面)
该库基本上是一个用于自身目的的爬虫程序。集成到
crawler4j
需要您进行大量手动操作

我建议您在
crawler4j
前面使用and/or和/或的组合,也就是说,您可以在
crawler4j
前面作为代理运行JavaScript引擎。但是,这会降低web爬虫程序的性能