Java 使用HtmlUnit作为爬虫程序

Java 使用HtmlUnit作为爬虫程序,java,web-crawler,htmlunit,Java,Web Crawler,Htmlunit,我需要一个无头浏览器来解析页面。 HtmlUnit允许我设置一个Heroku Java应用程序来完成此目的 但现在我遇到了两个问题 当前的url“//path”格式不正确,而不是“/path”或“http://path”。 我下载了2.9.4版本的源代码,并在源代码中推送了一些小补丁。。。 出于明显的可维护性原因,修改标准源并不是很有效 我很想知道我是不是挖错了方向。 HtmlUnit设计用于在测试中浏览页面。我的网站就像一个浏览器,所以尽可能让页面正常工作,特别是因为我那该死的目标网站是一种超

我需要一个无头浏览器来解析页面。 HtmlUnit允许我设置一个Heroku Java应用程序来完成此目的

但现在我遇到了两个问题

当前的url“//path”格式不正确,而不是“/path”或“http://path”。 我下载了2.9.4版本的源代码,并在源代码中推送了一些小补丁。。。 出于明显的可维护性原因,修改标准源并不是很有效

我很想知道我是不是挖错了方向。 HtmlUnit设计用于在测试中浏览页面。我的网站就像一个浏览器,所以尽可能让页面正常工作,特别是因为我那该死的目标网站是一种超脏的网站,不尊重任何东西

您对此回顾有何看法?

HTML单元用于无头浏览器的“模拟”。在那里,它工作得很好


所以我认为没有理由不尝试Html单元。您也可以看一看。

我考虑的其他解决方案是:Saucelabs.com和Selenium on rails,但我一直在下载文件,除了它完全有效之外。另一个想法是将nodeJS应用程序与ZombieJS一起使用。这个想法是要有一个真正的DOM+JS环境,但是我的第一次测试已经引起了很多JS错误。。。