Web 如何发现我的网站被刮了?

Web 如何发现我的网站被刮了?,web,web-scraping,screen-scraping,Web,Web Scraping,Screen Scraping,如何发现我的网站被刮了 我有一些观点 网络带宽占用,导致吞吐量问题(如果使用代理,则匹配) 在搜索引擎中查询关键字时,新的引用会出现在具有相同内容的其他类似资源中(如果使用代理,则匹配) 来自同一IP的多个请求 来自单个IP的高请求率。(顺便问一下:正常利率是多少?) 无头或怪异的用户代理(如果使用代理,则匹配) 以可预测(相等)的间隔从同一IP请求 某些支持文件从不被请求,例如favicon.ico、各种CSS和javascript文件(如果使用代理,则匹配) 客户端的请求序列。例如,客户端访

如何发现我的网站被刮了

我有一些观点

  • 网络带宽占用,导致吞吐量问题(如果使用代理,则匹配)
  • 在搜索引擎中查询关键字时,新的引用会出现在具有相同内容的其他类似资源中(如果使用代理,则匹配)
  • 来自同一IP的多个请求
  • 来自单个IP的高请求率。(顺便问一下:正常利率是多少?)
  • 无头或怪异的用户代理(如果使用代理,则匹配)
  • 以可预测(相等)的间隔从同一IP请求
  • 某些支持文件从不被请求,例如favicon.ico、各种CSS和javascript文件(如果使用代理,则匹配)
  • 客户端的请求序列。例如,客户端访问不可直接访问的页面(如果使用代理,则匹配)
  • 你能在这张单子上再加一点吗


    如果scraper使用代理,哪些点可能适合/匹配?

    我还将添加对同一个人何时提出请求的分析。例如,如果相同的IP地址每天在同一时间请求相同的数据,则该过程很可能处于自动计划中。因此很可能是刮擦

    可能添加对每个用户会话影响的页面数的分析。例如,如果某个用户在某一天浏览了你网站上的每个页面,而你认为这不寻常,那么这可能是另一个指标


    感觉上你需要一系列的指标,需要对它们进行评分,并将评分结合起来,以显示谁最有可能被刮伤。

    作为第一个注意事项;考虑一下它是否值得为未来的机器人提供一个API。如果你被另一家公司/等爬网,如果你想向他们提供任何信息,那么你的网站对他们来说都是有价值的。创建一个API将大大减少您的服务器负载,并使您100%清楚地了解爬行您的人

    第二,根据个人经验(我创建网络爬网已经有一段时间了),通常你可以通过跟踪访问你网站的浏览器来立即判断。如果他们使用的是一种自动化的开发语言或一种开发语言,那么它将与您的普通用户截然不同。更不用说跟踪日志文件和更新.htaccess并禁止它们了(如果这是您想要做的)

    它通常是另一个,然后相当容易发现。重复、非常一致地打开页面

    查看另一篇文章,了解更多关于如何处理它们的信息,以及如何识别它们的一些想法


    相关:和。基本上,这是很难确定的,因为他们使用不同的方法来混淆。从个人经验来看,单个IP访问你的网站的速度将非常广泛地基于你的网站。例如,我曾经创建过一个网站,平均每天访问一次,只查看几页(因为我们每天只发布一次信息)。其他网站(比如论坛,或者经常发布大量信息的动态更新网站)的访问量可能更随机。或者,如果你的网站是一致的,它将是非常罕见的-可能每天1-2,然后下降。你能解释为什么你想检测刮刀吗?大多数网站都支持它——抓取正是你进入搜索引擎的方式。如果你想阻止它,你有没有尝试过机器人排除协议?我会把国家添加到这个列表中。如果你突然看到来自中国的流量激增,即使来自1000个不同的ip地址,你也会被刮伤。IP阻塞和蜜罐在这种情况下可能会有所帮助。@halfer,我这样问是因为我想写一篇关于这个主题的文章。我的目的是在这个问题上获得更多的观点。许多网站所有者担心数据隐私、便利性和类似的事情。请解释一下“机器人排除协议”好吗?感谢
    为节省带宽而“制作API”
    一致地打开页面
    感谢
    分析同一客户何时提出请求
    ,并建议
    对指标进行评分以计算最终值