Web crawler 什么是一个合适的网络爬虫更新间隔？_Web Crawler_Intervals

Web crawler 什么是一个合适的网络爬虫更新间隔？

web-crawler

Web crawler 什么是一个合适的网络爬虫更新间隔？,web-crawler,intervals,Web Crawler,Intervals,我目前正在开发自己的小网络爬虫thingy，我想知道对于网络爬虫来说，再次访问同一个站点的合理间隔是多少你是否应该每天重访一次？每小时一次？我真的不知道……有人有这方面的经验吗？也许有人能给我指出正确的方向？我认为你的爬虫访问应该是有机的我会从每周抓取一次列表开始，当网站内容发生变化时，将其设置为每周爬行两次， [然后]当您看到更频繁的更改时，您会更频繁地爬行该算法需要足够智能，以了解一次性编辑和频繁站点更改之间的区别另外，永远不要忘记关注Robots.txt。。。这是你在爬网中应该

我目前正在开发自己的小网络爬虫thingy，我想知道

对于网络爬虫来说，再次访问同一个站点的合理间隔是多少

你是否应该每天重访一次？每小时一次？我真的不知道……有人有这方面的经验吗？也许有人能给我指出正确的方向？

我认为你的爬虫访问应该是有机的

我会从每周抓取一次列表开始，
当网站内容发生变化时，将其设置为每周爬行两次， [然后]当您看到更频繁的更改时，您会更频繁地爬行

该算法需要足够智能，以了解一次性编辑和频繁站点更改之间的区别

另外，永远不要忘记关注Robots.txt。。。这是你在爬网中应该点击的第一个页面，你需要首先尊重它的内容。

我认为你的爬网访问应该是有机的

我会从每周抓取一次列表开始，
当网站内容发生变化时，将其设置为每周爬行两次， [然后]当您看到更频繁的更改时，您会更频繁地爬行

该算法需要足够智能，以了解一次性编辑和频繁站点更改之间的区别

另外，永远不要忘记关注Robots.txt。。。这是你在爬网时应该点击的第一个页面，你需要首先尊重它的内容。

这将取决于你正在爬网的站点以及你对结果所做的操作

一些人不会反对相当频繁的访问率，但其他人可能会限制你每天访问一次，例如

很多网站都热衷于保护自己的内容（默多克和新闻国际都在指责谷歌，并将英国《泰晤士报》置于付费墙之后），因此他们对爬虫不信任

如果你只打算抓取几个站点，那么就值得联系站点所有者，解释你想做什么，看看他们回复什么。如果他们真的回复，请尊重他们的意愿，并始终遵守

robots.txt

文件。

这将取决于您正在爬行的站点以及您对结果所做的操作

一些人不会反对相当频繁的访问率，但其他人可能会限制你每天访问一次，例如

很多网站都热衷于保护自己的内容（默多克和新闻国际都在指责谷歌，并将英国《泰晤士报》置于付费墙之后），因此他们对爬虫不信任

如果你只打算抓取几个站点，那么就值得联系站点所有者，解释你想做什么，看看他们回复什么。如果他们真的回复，请尊重他们的意愿，并始终遵守

robots.txt

文件。

甚至一个小时都可能是不礼貌的，这取决于你在哪个网站上爬行以及爬行的强度。我假设您这样做是为了练习，所以请帮助拯救世界，并将自己限制在为处理巨大负载而构建的站点上，然后仅获取HTTP头，以查看是否需要获取页面

更礼貌的做法是先用

wget

爬行有限的集合，将其存储在本地，然后在缓存中爬行

如果你不把这当作一种锻炼，那么就没有理由这么做，因为它已经死了，interwebz也不需要再做一次了。

甚至一个小时也可能是不礼貌的，这取决于你正在浏览的网站和浏览的强度。我假设您这样做是为了练习，所以请帮助拯救世界，并将自己限制在为处理巨大负载而构建的站点上，然后仅获取HTTP头，以查看是否需要获取页面

更礼貌的做法是先用

wget

爬行有限的集合，将其存储在本地，然后在缓存中爬行

如果你不是在做练习，没有理由这么做，因为它已经死了，interwebz也不需要再做一次。

最好问问网站所有者——他们可以告诉你多久做一次就可以了。当然，尊重他们的robots.txt。体面的做法是询问网站所有者——他们可以告诉你多久可以。当然，尊重他们的robots.txt。