Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/ruby-on-rails-4/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Web crawler 什么是一个合适的网络爬虫更新间隔?_Web Crawler_Intervals - Fatal编程技术网

Web crawler 什么是一个合适的网络爬虫更新间隔?

Web crawler 什么是一个合适的网络爬虫更新间隔?,web-crawler,intervals,Web Crawler,Intervals,我目前正在开发自己的小网络爬虫thingy,我想知道 对于网络爬虫来说,再次访问同一个站点的合理间隔是多少 你是否应该每天重访一次?每小时一次?我真的不知道……有人有这方面的经验吗?也许有人能给我指出正确的方向?我认为你的爬虫访问应该是有机的 我会从每周抓取一次列表开始, 当网站内容发生变化时,将其设置为每周爬行两次, [然后]当您看到更频繁的更改时,您会更频繁地爬行 该算法需要足够智能,以了解一次性编辑和频繁站点更改之间的区别 另外,永远不要忘记关注Robots.txt。。。这是你在爬网中应该

我目前正在开发自己的小网络爬虫thingy,我想知道

对于网络爬虫来说,再次访问同一个站点的合理间隔是多少


你是否应该每天重访一次?每小时一次?我真的不知道……有人有这方面的经验吗?也许有人能给我指出正确的方向?

我认为你的爬虫访问应该是有机的

我会从每周抓取一次列表开始,
当网站内容发生变化时,将其设置为每周爬行两次, [然后]当您看到更频繁的更改时,您会更频繁地爬行

该算法需要足够智能,以了解一次性编辑和频繁站点更改之间的区别


另外,永远不要忘记关注Robots.txt。。。这是你在爬网中应该点击的第一个页面,你需要首先尊重它的内容。

我认为你的爬网访问应该是有机的

我会从每周抓取一次列表开始,
当网站内容发生变化时,将其设置为每周爬行两次, [然后]当您看到更频繁的更改时,您会更频繁地爬行

该算法需要足够智能,以了解一次性编辑和频繁站点更改之间的区别


另外,永远不要忘记关注Robots.txt。。。这是你在爬网时应该点击的第一个页面,你需要首先尊重它的内容。

这将取决于你正在爬网的站点以及你对结果所做的操作

一些人不会反对相当频繁的访问率,但其他人可能会限制你每天访问一次,例如

很多网站都热衷于保护自己的内容(默多克和新闻国际都在指责谷歌,并将英国《泰晤士报》置于付费墙之后),因此他们对爬虫不信任


如果你只打算抓取几个站点,那么就值得联系站点所有者,解释你想做什么,看看他们回复什么。如果他们真的回复,请尊重他们的意愿,并始终遵守
robots.txt
文件。

这将取决于您正在爬行的站点以及您对结果所做的操作

一些人不会反对相当频繁的访问率,但其他人可能会限制你每天访问一次,例如

很多网站都热衷于保护自己的内容(默多克和新闻国际都在指责谷歌,并将英国《泰晤士报》置于付费墙之后),因此他们对爬虫不信任


如果你只打算抓取几个站点,那么就值得联系站点所有者,解释你想做什么,看看他们回复什么。如果他们真的回复,请尊重他们的意愿,并始终遵守
robots.txt
文件。

甚至一个小时都可能是不礼貌的,这取决于你在哪个网站上爬行以及爬行的强度。我假设您这样做是为了练习,所以请帮助拯救世界,并将自己限制在为处理巨大负载而构建的站点上,然后仅获取HTTP头,以查看是否需要获取页面

更礼貌的做法是先用
wget
爬行有限的集合,将其存储在本地,然后在缓存中爬行


如果你不把这当作一种锻炼,那么就没有理由这么做,因为它已经死了,interwebz也不需要再做一次了。

甚至一个小时也可能是不礼貌的,这取决于你正在浏览的网站和浏览的强度。我假设您这样做是为了练习,所以请帮助拯救世界,并将自己限制在为处理巨大负载而构建的站点上,然后仅获取HTTP头,以查看是否需要获取页面

更礼貌的做法是先用
wget
爬行有限的集合,将其存储在本地,然后在缓存中爬行


如果你不是在做练习,没有理由这么做,因为它已经死了,interwebz也不需要再做一次。

最好问问网站所有者——他们可以告诉你多久做一次就可以了。当然,尊重他们的robots.txt。体面的做法是询问网站所有者——他们可以告诉你多久可以。当然,尊重他们的robots.txt。