Web scraping 设置某种计时器以避免刮网时被检测到很重要吗?

Web scraping 设置某种计时器以避免刮网时被检测到很重要吗?,web-scraping,Web Scraping,我已经建立了一个程序,试图对一个房地产网站进行一些清理,以便获得一些关于市场的统计数据 我的程序可能会给这个网站打150次电话。我想每天做一次。我认为网络足够大,他们每天可能会获得大约10000-20000次点击(估计) 但是如果我把这些都寄到一起,他们会不会认为他们的请求太多了?他们会注意到我正在抓取网页并阻止我的IP吗 如果是这样,设置计时器是否重要?目前,我已经设置了一个计时器,在每次通话前等待3到5秒,如果有必要的话,我只会打电话。如果他们要注意刮刀,它肯定会非常突出。每天点击10000

我已经建立了一个程序,试图对一个房地产网站进行一些清理,以便获得一些关于市场的统计数据

我的程序可能会给这个网站打150次电话。我想每天做一次。我认为网络足够大,他们每天可能会获得大约10000-20000次点击(估计)

但是如果我把这些都寄到一起,他们会不会认为他们的请求太多了?他们会注意到我正在抓取网页并阻止我的IP吗


如果是这样,设置计时器是否重要?目前,我已经设置了一个计时器,在每次通话前等待3到5秒,如果有必要的话,我只会打电话。

如果他们要注意刮刀,它肯定会非常突出。每天点击10000-20000次,平均每4-9秒点击一次。在每一个真正的请求之间,你会有2次点击,而且间隔如此短,过滤掉你的请求并不困难


更安全、更有礼貌的做法是将刮擦时间设置为24小时,因此将间隔时间设置为10分钟左右。这不会给他们带来显著的负载差异(不是说150个请求就可以了),而且随着请求的分布越来越广,这会使锁定点变得非常困难。

如果他们要注意刮刀,它肯定会脱颖而出。每天点击10000-20000次,平均每4-9秒点击一次。在每一个真正的请求之间,你会有2次点击,而且间隔如此短,过滤掉你的请求并不困难


更安全、更有礼貌的做法是将刮擦时间设置为24小时,因此将间隔时间设置为10分钟左右。这不会给他们带来显著的负载差异(不是150个请求就可以了),而且随着请求的分布越来越广,锁定点会变得非常困难。

我同意Niklas的观点。但是,如果您需要“更快”的数据,我会选择60秒(最多120秒)的超时时间。这对于今天大多数具有您所描述的流量大小的服务器都是好的。
另外,为了让事情好起来,请确保您遵循robots.txt的定义,并查看是否有一些限制(在超时和路由方面)。

我同意Niklas的观点。但是,如果您需要“更快”的数据,我会选择60秒(最多120秒)的超时时间。这对于今天大多数具有您所描述的流量大小的服务器都是好的。
此外,为了更好,请确保您遵循robots.txt的定义,并查看是否存在某些限制(超时和路由方面)。

网站所有者使用/robots.txt文件向网络机器人提供有关其网站的说明;这被称为机器人排除协议。您可以阅读更多内容:谢谢,原来robots.txt文件中没有关于延迟的任何指令。我可能会像你说的那样设置为60秒左右;这被称为机器人排除协议。您可以阅读更多内容:谢谢,原来robots.txt文件中没有关于延迟的任何指令。我可能会像你说的那样设置为60秒左右。