Web crawler 良好网络爬虫指南'；礼仪'；_Web Crawler

Web crawler 良好网络爬虫指南'；礼仪'；

web-crawler

Web crawler 良好网络爬虫指南'；礼仪'；,web-crawler,Web Crawler,我正在建立一个搜索引擎（为了好玩），我突然意识到，我的小项目可能会因为点击广告和各种各样的问题而带来灾难那么，好的网络摄影师“礼仪”的指导原则是什么呢？想到的事情：遵守Robot.txt说明限制对同一域的同时请求数不跟随广告链接阻止爬虫点击广告 -这一点我现在特别想。。。如何阻止我的机器人“点击”广告？如果它直接指向广告中的url，是否算作点击？不要跟随标记为rel=“nofollow”的链接此外，你也不必担心广告。如果你只抓取页面的HTML文本，那么在大多数情况下你不会在那里获得

我正在建立一个搜索引擎（为了好玩），我突然意识到，我的小项目可能会因为点击广告和各种各样的问题而带来灾难

那么，好的网络摄影师“礼仪”的指导原则是什么呢？

想到的事情：

遵守Robot.txt说明

限制对同一域的同时请求数

不跟随广告链接

阻止爬虫点击广告

-这一点我现在特别想。。。如何阻止我的机器人“点击”广告？如果它直接指向广告中的url，是否算作点击？

不要跟随标记为rel=“nofollow”的链接

此外，你也不必担心广告。如果你只抓取页面的HTML文本，那么在大多数情况下你不会在那里获得广告链接——它们是在客户端使用javascript生成的。

你不会只读取robots.txt指令。您还应该看到

关于广告问题，我不确定，但我想如果你只是阅读链接，然后在其他时间进入页面，输入的页面将没有关于你如何获得该地址的信息，并且不能为“伪点击”向网站收费。

有人有好的资源来查找和解析domains robot.txt吗？是事实上的参考。不过，它似乎被我工作的地方屏蔽了，所以我无法验证这一点。有点讽刺，因为我们制作网络应用。