Java 当页面在页面末尾动态加载数据时,从Web抓取数据

Java 当页面在页面末尾动态加载数据时,从Web抓取数据,java,web-crawler,Java,Web Crawler,我想使用java从web上抓取一些数据,但是我发现页面在到达页面末尾时会加载数据。我不是一个网络开发人员,也不知道当滚动到达页面末尾时,他们使用哪种技术来加载数据 你能给我一些提示吗?他们使用哪种技术?当我不想使用浏览器时,如何读取数据?我用java编写了一个代码,使用urlConnection从站点读取数据 网站是这样的 谢谢。这是网络爬虫机器人的常见问题。。。 某些页面包含从包含的源动态添加的内容。 此内容可以在页面加载时加载,也可以像您的示例一样通过向下滚动来触发。 在大多数情况下,当下载

我想使用java从web上抓取一些数据,但是我发现页面在到达页面末尾时会加载数据。我不是一个网络开发人员,也不知道当滚动到达页面末尾时,他们使用哪种技术来加载数据

你能给我一些提示吗?他们使用哪种技术?当我不想使用浏览器时,如何读取数据?我用java编写了一个代码,使用urlConnection从站点读取数据

网站是这样的


谢谢。

这是网络爬虫机器人的常见问题。。。 某些页面包含从包含的源动态添加的内容。 此内容可以在页面加载时加载,也可以像您的示例一样通过向下滚动来触发。 在大多数情况下,当下载并刮取目标页面时,DOM结构不包括 外部包含数据的html元素

我建议你做的是识别这些数据的源路径, 这可以通过仔细检查DOM上的纸条来实现。并称他为第二来源 这包括您需要的所有缺失数据

编辑:

在您链接的示例中-很简单:

      - install firebug.
      - scroll down the page to check the script that fires the request.
      - now you can see the link and the vars that are used for dynamicly adding the content.
www.healthtap.com/topics/Women%27s%20health:

双极响应链接:

??扩展的\u类别=1&auth\u标记=false&per\u page=8&page=7&per\u page=8&auth\u标记=false&generate\u标记=true

如您所见,您可以使用以下几个参数:

 1/ topics/ + the page firs value name + .json?
 2/ per page= num -> how much results to return
 3/ generate_token=true -> its a security value but just change it to false and it work fine....
现在,您可以使用此链接加载所有需要的数据,并将其与已爬网的主页合并


测试

非常感谢你。它非常有用。你能告诉我你是如何找到日常回复链接的吗?extended_categories=1&auth_-token=false&per_-page=8&page=7&per_-page=8&auth_-token=false&generate_-token=trueAs我说过你可以搜索源代码或者安装firebug-,安装它,向下滚动时你可以在firebug控制台中看到加载了哪个URL。