Web crawler 抓取有限制的网页_Web Crawler

Web crawler 抓取有限制的网页

web-crawler

Web crawler 抓取有限制的网页,web-crawler,Web Crawler,我有一个关于从网页抓取数据的问题。有些站点对请求有限制，在这种情况下如何进行爬网？在爬网站点时，您可能会发现，由于对站点的请求太多，所以速率受到限制。例如，我的站点可能会阻止您几秒钟，然后我才允许您发出另一个请求。这些限制可能会根据站点以及您发出请求的数量和频率而变化绕过这些限制的一种方法是使用您的语言睡眠方法在请求之间稍等片刻。在Python中，这是时间。睡眠（10）如果您仍然被阻止，您可以尝试通过增加重试时间来满足禁令时间。例如，您在某个请求上被阻止，因此请等待5秒，然后重试（并被阻止）

我有一个关于从网页抓取数据的问题。有些站点对请求有限制，在这种情况下如何进行爬网？

在爬网站点时，您可能会发现，由于对站点的请求太多，所以速率受到限制。例如，我的站点可能会阻止您几秒钟，然后我才允许您发出另一个请求。这些限制可能会根据站点以及您发出请求的数量和频率而变化

绕过这些限制的一种方法是使用您的语言睡眠方法在请求之间稍等片刻。在Python中，这是时间。睡眠（10）

如果您仍然被阻止，您可以尝试通过增加重试时间来满足禁令时间。例如，您在某个请求上被阻止，因此请等待5秒，然后重试（并被阻止），等待10秒，然后重试（并被阻止），等待20秒，然后重试（并被阻止），等待40秒，以此类推，直到您达到想要放弃的限制，或者服务器允许您成功地提出请求。

如果您的问题是“我想绕过robots.txt文件，我该如何做？”答案是，“这种限制是有原因的：它是为了让网络爬虫远离它们不属于的区域。”如果这不是你的问题，那么你需要（也应该）更清楚地知道你想做什么以及为什么。添加你做过的研究以及你试图解决问题的方法。