Web crawler 如果数据在滚动后附加Javascript,如何抓取整个网站

Web crawler 如果数据在滚动后附加Javascript,如何抓取整个网站,web-crawler,Web Crawler,我需要抓取一个网站,但问题是,在底部没有链接分页。如果滚动到底部,数据将追加。现在我怎样才能让我的爬虫做到这一点?有什么想法吗?向下滚动时,尝试检查执行的脚本以追加数据。它必须以某种方式检索额外的数据——只要看看它在做什么,然后让你的爬虫做同样的事情。使用像Selenium这样的机器人可以工作,你可以在真实的导航器中模拟真实的用户。我曾经在facebook上做过一件事,就是在C++/Qt中使用JavaScript解释器,然后通过它发送请求。比硒快得多 我相信谷歌的处理能力比你们强得多,网站管理员

我需要抓取一个网站,但问题是,在底部没有链接分页。如果滚动到底部,数据将追加。现在我怎样才能让我的爬虫做到这一点?有什么想法吗?

向下滚动时,尝试检查执行的脚本以追加数据。它必须以某种方式检索额外的数据——只要看看它在做什么,然后让你的爬虫做同样的事情。

使用像Selenium这样的机器人可以工作,你可以在真实的导航器中模拟真实的用户。我曾经在facebook上做过一件事,就是在C++/Qt中使用JavaScript解释器,然后通过它发送请求。比硒快得多


我相信谷歌的处理能力比你们强得多,网站管理员会尽一切努力让他们解析

谷歌是如何管理的?谷歌无法检查整个脚本,应该还有其他出路,但我会尝试你的解决方案谢谢:)