用Java阅读网页的全部内容

用Java阅读网页的全部内容,java,html,Java,Html,我想用Java程序对以下链接的全部内容进行爬网。第一页没有问题,但是当我想要抓取下一页的数据时,有与第一页相同的源代码。因此,一个简单的HTTPGET根本没有帮助 是我需要爬网的页面的链接。 该网站具有需要由HMTL/CSS/JavaScript呈现引擎解释和执行的活动内容。因此,我有一个使用PhantomJS的简单解决方案,但在Java中运行PhantomJS代码非常复杂 有没有更简单的方法用Java代码阅读页面的全部内容?我已经在寻找解决办法,但找不到任何合适的办法 感谢您的帮助, 问候。使

我想用Java程序对以下链接的全部内容进行爬网。第一页没有问题,但是当我想要抓取下一页的数据时,有与第一页相同的源代码。因此,一个简单的HTTPGET根本没有帮助

是我需要爬网的页面的链接。
该网站具有需要由HMTL/CSS/JavaScript呈现引擎解释和执行的活动内容。因此,我有一个使用PhantomJS的简单解决方案,但在Java中运行PhantomJS代码非常复杂

有没有更简单的方法用Java代码阅读页面的全部内容?我已经在寻找解决办法,但找不到任何合适的办法

感谢您的帮助,

问候。

使用Chrome网络日志(或任何其他浏览器中的类似工具),您可以识别加载页面上显示的实际数据的XHR请求。我已经删除了一些查询参数,但请求基本上如下所示:

GET https://www.blablacar.de/search_xhr?fn=frankfurt&fcc=DE&tn=muenchen&tcc=DE&sort=trip_date&order=asc&limit=10&page=1&user_bridge=0&_=1461181945520
有利的是,查询参数看起来很容易理解。
order=asc&limit=10&page=1部分看起来很容易调整以返回所需结果。您可以调整
page
参数来抓取连续的数据页


响应是JSON,有大量可用的库。

可以使用实际的浏览器,并使用WebDriver与之接口吗?或者考虑JavaFX中包含的HTML5浏览器…?试试硒?示例:请注意,您发布的URL包含地理坐标。我不知道它们指的是什么,但如果它们是个人信息,您可能希望删除它们。如果我对XHR请求提供的url进行爬网并更改页码,我将获得所需的所有数据。