Java 使用HtmlUnit作为爬虫程序_Java_Web Crawler_Htmlunit

Java 使用HtmlUnit作为爬虫程序

java web-crawler

Java 使用HtmlUnit作为爬虫程序,java,web-crawler,htmlunit,Java,Web Crawler,Htmlunit,我需要一个无头浏览器来解析页面。 HtmlUnit允许我设置一个Heroku Java应用程序来完成此目的但现在我遇到了两个问题当前的url“//path”格式不正确，而不是“/path”或“http://path”。我下载了2.9.4版本的源代码，并在源代码中推送了一些小补丁。。。出于明显的可维护性原因，修改标准源并不是很有效我很想知道我是不是挖错了方向。 HtmlUnit设计用于在测试中浏览页面。我的网站就像一个浏览器，所以尽可能让页面正常工作，特别是因为我那该死的目标网站是一种超

我需要一个无头浏览器来解析页面。 HtmlUnit允许我设置一个Heroku Java应用程序来完成此目的

但现在我遇到了两个问题

当前的url“//path”格式不正确，而不是“/path”或“http://path”。我下载了2.9.4版本的源代码，并在源代码中推送了一些小补丁。。。出于明显的可维护性原因，修改标准源并不是很有效

我很想知道我是不是挖错了方向。 HtmlUnit设计用于在测试中浏览页面。我的网站就像一个浏览器，所以尽可能让页面正常工作，特别是因为我那该死的目标网站是一种超脏的网站，不尊重任何东西

您对此回顾有何看法？

HTML单元用于无头浏览器的“模拟”。在那里，它工作得很好

所以我认为没有理由不尝试Html单元。您也可以看一看。

我考虑的其他解决方案是：Saucelabs.com和Selenium on rails，但我一直在下载文件，除了它完全有效之外。另一个想法是将nodeJS应用程序与ZombieJS一起使用。这个想法是要有一个真正的DOM+JS环境，但是我的第一次测试已经引起了很多JS错误。。。