Web crawler 良好网络爬虫指南';礼仪';

Web crawler 良好网络爬虫指南';礼仪';,web-crawler,Web Crawler,我正在建立一个搜索引擎(为了好玩),我突然意识到,我的小项目可能会因为点击广告和各种各样的问题而带来灾难 那么,好的网络摄影师“礼仪”的指导原则是什么呢? 想到的事情: 遵守Robot.txt说明 限制对同一域的同时请求数 不跟随广告链接 阻止爬虫点击广告 -这一点我现在特别想。。。如何阻止我的机器人“点击”广告?如果它直接指向广告中的url,是否算作点击?不要跟随标记为rel=“nofollow”的链接 此外,你也不必担心广告。如果你只抓取页面的HTML文本,那么在大多数情况下你不会在那里获得

我正在建立一个搜索引擎(为了好玩),我突然意识到,我的小项目可能会因为点击广告和各种各样的问题而带来灾难

那么,好的网络摄影师“礼仪”的指导原则是什么呢?

想到的事情:

  • 遵守Robot.txt说明
  • 限制对同一域的同时请求数
  • 不跟随广告链接
  • 阻止爬虫点击广告
    -这一点我现在特别想。。。如何阻止我的机器人“点击”广告?如果它直接指向广告中的url,是否算作点击?

    不要跟随标记为rel=“nofollow”的链接


    此外,你也不必担心广告。如果你只抓取页面的HTML文本,那么在大多数情况下你不会在那里获得广告链接——它们是在客户端使用javascript生成的。

    你不会只读取robots.txt指令。您还应该看到


    关于广告问题,我不确定,但我想如果你只是阅读链接,然后在其他时间进入页面,输入的页面将没有关于你如何获得该地址的信息,并且不能为“伪点击”向网站收费。

    有人有好的资源来查找和解析domains robot.txt吗?是事实上的参考。不过,它似乎被我工作的地方屏蔽了,所以我无法验证这一点。有点讽刺,因为我们制作网络应用。