Iis 7 I'；我被刮伤了，我怎样才能防止呢？_Iis 7_Web Scraping

Iis 7 I'；我被刮伤了，我怎样才能防止呢？

iis-7 web-scraping

Iis 7 I'；我被刮伤了，我怎样才能防止呢？,iis-7,web-scraping,Iis 7,Web Scraping,运行iis7，我每周都会看到来自一个地理位置的大量谷歌分析点击。他们正在查看的URL序列显然是由某种算法生成的，所以我知道我正在被刮取内容。有没有办法防止这种情况？谷歌不只是给我一个IP，这让我非常沮丧。在反刮削领域有很多技术。我只是把它们分类。如果你发现我的答案中缺少什么，请评论 A.基于web请求的服务器端过滤 1.阻止一个或多个可疑IP。阻止可疑的IP工作得很好，但今天大部分的抓取都是使用IP代理完成的，所以从长远来看，它不会有效。在您的情况下，您会收到来自同一IP地理位置的请求，因此，

运行iis7，我每周都会看到来自一个地理位置的大量谷歌分析点击。他们正在查看的URL序列显然是由某种算法生成的，所以我知道我正在被刮取内容。有没有办法防止这种情况？谷歌不只是给我一个IP，这让我非常沮丧。

在反刮削领域有很多技术。我只是把它们分类。如果你发现我的答案中缺少什么，请评论

A.基于web请求的服务器端过滤 1.阻止一个或多个可疑IP。阻止可疑的IP工作得很好，但今天大部分的抓取都是使用IP代理完成的，所以从长远来看，它不会有效。在您的情况下，您会收到来自同一IP地理位置的请求，因此，如果您禁止此IP，那么scraper肯定会利用IP代理，从而保持IP独立且不被发现

2.使用DNS级别过滤使用DNS防火墙属于防刮措施。简而言之，这是为了将您的web服务设置为专用域名服务器（DNS）网络，该网络将在错误请求到达您的服务器之前过滤和防止错误请求。一些公司为复杂的网站保护提供了这种复杂的措施，您可能会更深入地了解这种服务

3.使用自定义脚本跟踪用户的统计信息并删除麻烦的请求正如您所提到的，您已经检测到一个算法，一个刮板抓取URL。有一个跟踪请求URL的自定义脚本，并基于此启用保护措施。为此，您必须在IIS中激活[shell]脚本。副作用可能是系统响应时间会增加，从而降低服务速度。顺便说一句，您检测到的算法可能会被更改，从而取消此度量

4.限制请求频率您可以设置请求频率或可下载数据量的限制。考虑到普通用户的可用性，必须应用这些限制。与持续请求相比，您可能会设置web服务规则来删除或延迟不需要的活动。然而，如果scraper被重新配置为模仿普通用户的行为（通过现在一些著名的工具：，Mechanize），这一措施将失败

5.设置最大会话长度这是一个很好的方法，但通常现代的刮刀会执行会话身份验证，因此缩短会话时间并不那么有效

B.基于浏览器的识别和预防 1.为目标页面设置CAPTCHA 这是旧时代的技术，在很大程度上解决了刮削问题。然而，如果你的对手利用了这种保护，很可能会被关闭

2.将JavaScript逻辑注入web服务响应 JavaScript代码应该在请求的html内容之前或随请求的html内容一起到达客户端（用户的浏览器或抓取服务器）。此代码用于计数并向目标服务器返回特定值。基于此测试，html代码可能格式不正确，甚至可能没有发送给请求者，从而使恶意的刮取器离开。逻辑可以放在一个或多个JavaScript可加载文件中。这种JavaScript逻辑可能不仅适用于整个内容，而且只适用于站点内容的某些部分（例如价格）。为了绕过这一措施，刮刀可能需要转向甚至（通常是JavaScript），这是高度可定制的，因此成本高昂

C.基于内容的保护 1.将重要数据伪装成图像这种内容保护方法如今被广泛使用。它确实阻止了铲运机收集数据。它的副作用是，作为图像的数据被隐藏起来用于搜索引擎索引，从而降低了网站的搜索引擎优化。如果铲运机利用系统，这种保护可能再次被绕过

2.频繁的页面结构更改

这是一种非常有效的刮伤保护方法。它不仅可以更改元素ID和类，还可以更改整个层次结构。后者涉及样式重组，因此增加了成本。当然，如果要保持内容刮削，刮板侧必须适应新的结构。如果您的服务负担得起的话，没有太多的副作用。

这样做是离题的。他们来自萨马拉州？我被那边的人狠狠揍了一顿……不，大陆航空US@Ryan，你能分享一下我的回答中哪一部分对你有帮助吗？你打算申请吗？如果已经应用，它对您有多大帮助？我问你这个问题是因为我做了网页抓取研究，然后将结果发布到scraping.pro博客上。任何反馈都将是可观的！抱歉耽搁了。我一直在半定期地重组html。我自己写了一本刮刀，我一直在尽力阻止我所有的尝试。这比应该的有趣多了。。。