用Java阅读网页的全部内容_Java_Html

用Java阅读网页的全部内容

java html

用Java阅读网页的全部内容,java,html,Java,Html,我想用Java程序对以下链接的全部内容进行爬网。第一页没有问题，但是当我想要抓取下一页的数据时，有与第一页相同的源代码。因此，一个简单的HTTPGET根本没有帮助是我需要爬网的页面的链接。该网站具有需要由HMTL/CSS/JavaScript呈现引擎解释和执行的活动内容。因此，我有一个使用PhantomJS的简单解决方案，但在Java中运行PhantomJS代码非常复杂有没有更简单的方法用Java代码阅读页面的全部内容？我已经在寻找解决办法，但找不到任何合适的办法感谢您的帮助，问候。使

我想用Java程序对以下链接的全部内容进行爬网。第一页没有问题，但是当我想要抓取下一页的数据时，有与第一页相同的源代码。因此，一个简单的HTTPGET根本没有帮助

是我需要爬网的页面的链接。
该网站具有需要由HMTL/CSS/JavaScript呈现引擎解释和执行的活动内容。因此，我有一个使用PhantomJS的简单解决方案，但在Java中运行PhantomJS代码非常复杂

有没有更简单的方法用Java代码阅读页面的全部内容？我已经在寻找解决办法，但找不到任何合适的办法

感谢您的帮助，

问候。

使用Chrome网络日志（或任何其他浏览器中的类似工具），您可以识别加载页面上显示的实际数据的XHR请求。我已经删除了一些查询参数，但请求基本上如下所示：

GET https://www.blablacar.de/search_xhr?fn=frankfurt&fcc=DE&tn=muenchen&tcc=DE&sort=trip_date&order=asc&limit=10&page=1&user_bridge=0&_=1461181945520

有利的是，查询参数看起来很容易理解。

order=asc&limit=10&page=1部分看起来很容易调整以返回所需结果。您可以调整page
参数来抓取连续的数据页
响应是JSON，有大量可用的库。
可以使用实际的浏览器，并使用WebDriver与之接口吗？或者考虑JavaFX中包含的HTML5浏览器…？试试硒？示例：请注意，您发布的URL包含地理坐标。我不知道它们指的是什么，但如果它们是个人信息，您可能希望删除它们。如果我对XHR请求提供的url进行爬网并更改页码，我将获得所需的所有数据。