Web scraping 设置某种计时器以避免刮网时被检测到很重要吗？_Web Scraping

Web scraping 设置某种计时器以避免刮网时被检测到很重要吗？

web-scraping

Web scraping 设置某种计时器以避免刮网时被检测到很重要吗？,web-scraping,Web Scraping,我已经建立了一个程序，试图对一个房地产网站进行一些清理，以便获得一些关于市场的统计数据我的程序可能会给这个网站打150次电话。我想每天做一次。我认为网络足够大，他们每天可能会获得大约10000-20000次点击（估计）但是如果我把这些都寄到一起，他们会不会认为他们的请求太多了？他们会注意到我正在抓取网页并阻止我的IP吗如果是这样，设置计时器是否重要？目前，我已经设置了一个计时器，在每次通话前等待3到5秒，如果有必要的话，我只会打电话。如果他们要注意刮刀，它肯定会非常突出。每天点击10000

我已经建立了一个程序，试图对一个房地产网站进行一些清理，以便获得一些关于市场的统计数据

我的程序可能会给这个网站打150次电话。我想每天做一次。我认为网络足够大，他们每天可能会获得大约10000-20000次点击（估计）

但是如果我把这些都寄到一起，他们会不会认为他们的请求太多了？他们会注意到我正在抓取网页并阻止我的IP吗

如果是这样，设置计时器是否重要？目前，我已经设置了一个计时器，在每次通话前等待3到5秒，如果有必要的话，我只会打电话。

如果他们要注意刮刀，它肯定会非常突出。每天点击10000-20000次，平均每4-9秒点击一次。在每一个真正的请求之间，你会有2次点击，而且间隔如此短，过滤掉你的请求并不困难

更安全、更有礼貌的做法是将刮擦时间设置为24小时，因此将间隔时间设置为10分钟左右。这不会给他们带来显著的负载差异（不是说150个请求就可以了），而且随着请求的分布越来越广，这会使锁定点变得非常困难。

如果他们要注意刮刀，它肯定会脱颖而出。每天点击10000-20000次，平均每4-9秒点击一次。在每一个真正的请求之间，你会有2次点击，而且间隔如此短，过滤掉你的请求并不困难

更安全、更有礼貌的做法是将刮擦时间设置为24小时，因此将间隔时间设置为10分钟左右。这不会给他们带来显著的负载差异（不是150个请求就可以了），而且随着请求的分布越来越广，锁定点会变得非常困难。

我同意Niklas的观点。但是，如果您需要“更快”的数据，我会选择60秒（最多120秒）的超时时间。这对于今天大多数具有您所描述的流量大小的服务器都是好的。

另外，为了让事情好起来，请确保您遵循robots.txt的定义，并查看是否有一些限制（在超时和路由方面）。

此外，为了更好，请确保您遵循robots.txt的定义，并查看是否存在某些限制（超时和路由方面）。

网站所有者使用/robots.txt文件向网络机器人提供有关其网站的说明；这被称为机器人排除协议。您可以阅读更多内容：谢谢，原来robots.txt文件中没有关于延迟的任何指令。我可能会像你说的那样设置为60秒左右；这被称为机器人排除协议。您可以阅读更多内容：谢谢，原来robots.txt文件中没有关于延迟的任何指令。我可能会像你说的那样设置为60秒左右。