Java 当页面在页面末尾动态加载数据时，从Web抓取数据_Java_Web Crawler

Java 当页面在页面末尾动态加载数据时，从Web抓取数据

java web-crawler

Java 当页面在页面末尾动态加载数据时，从Web抓取数据,java,web-crawler,Java,Web Crawler,我想使用java从web上抓取一些数据，但是我发现页面在到达页面末尾时会加载数据。我不是一个网络开发人员，也不知道当滚动到达页面末尾时，他们使用哪种技术来加载数据你能给我一些提示吗？他们使用哪种技术？当我不想使用浏览器时，如何读取数据？我用java编写了一个代码，使用urlConnection从站点读取数据网站是这样的谢谢。这是网络爬虫机器人的常见问题。。。某些页面包含从包含的源动态添加的内容。此内容可以在页面加载时加载，也可以像您的示例一样通过向下滚动来触发。在大多数情况下，当下载

我想使用java从web上抓取一些数据，但是我发现页面在到达页面末尾时会加载数据。我不是一个网络开发人员，也不知道当滚动到达页面末尾时，他们使用哪种技术来加载数据

你能给我一些提示吗？他们使用哪种技术？当我不想使用浏览器时，如何读取数据？我用java编写了一个代码，使用urlConnection从站点读取数据

网站是这样的

谢谢。

这是网络爬虫机器人的常见问题。。。某些页面包含从包含的源动态添加的内容。此内容可以在页面加载时加载，也可以像您的示例一样通过向下滚动来触发。在大多数情况下，当下载并刮取目标页面时，DOM结构不包括外部包含数据的html元素

我建议你做的是识别这些数据的源路径，这可以通过仔细检查DOM上的纸条来实现。并称他为第二来源这包括您需要的所有缺失数据

编辑：

在您链接的示例中-很简单：

      - install firebug.
      - scroll down the page to check the script that fires the request.
      - now you can see the link and the vars that are used for dynamicly adding the content.

www.healthtap.com/topics/Women%27s%20health:

双极响应链接：

?？扩展的\u类别=1&auth\u标记=false&per\u page=8&page=7&per\u page=8&auth\u标记=false&generate\u标记=true

如您所见，您可以使用以下几个参数：

 1/ topics/ + the page firs value name + .json?
 2/ per page= num -> how much results to return
 3/ generate_token=true -> its a security value but just change it to false and it work fine....

现在，您可以使用此链接加载所有需要的数据，并将其与已爬网的主页合并

测试

非常感谢你。它非常有用。你能告诉我你是如何找到日常回复链接的吗？extended_categories=1&auth_-token=false&per_-page=8&page=7&per_-page=8&auth_-token=false&generate_-token=trueAs我说过你可以搜索源代码或者安装firebug-，安装它，向下滚动时你可以在firebug控制台中看到加载了哪个URL。