Iis 7 I';我被刮伤了,我怎样才能防止呢?

Iis 7 I';我被刮伤了,我怎样才能防止呢?,iis-7,web-scraping,Iis 7,Web Scraping,运行iis7,我每周都会看到来自一个地理位置的大量谷歌分析点击。他们正在查看的URL序列显然是由某种算法生成的,所以我知道我正在被刮取内容。有没有办法防止这种情况?谷歌不只是给我一个IP,这让我非常沮丧。在反刮削领域有很多技术。我只是把它们分类。如果你发现我的答案中缺少什么,请评论 A.基于web请求的服务器端过滤 1.阻止一个或多个可疑IP。 阻止可疑的IP工作得很好,但今天大部分的抓取都是使用IP代理完成的,所以从长远来看,它不会有效。在您的情况下,您会收到来自同一IP地理位置的请求,因此,

运行iis7,我每周都会看到来自一个地理位置的大量谷歌分析点击。他们正在查看的URL序列显然是由某种算法生成的,所以我知道我正在被刮取内容。有没有办法防止这种情况?谷歌不只是给我一个IP,这让我非常沮丧。

在反刮削领域有很多技术。我只是把它们分类。如果你发现我的答案中缺少什么,请评论

A.基于web请求的服务器端过滤 1.阻止一个或多个可疑IP。 阻止可疑的IP工作得很好,但今天大部分的抓取都是使用IP代理完成的,所以从长远来看,它不会有效。在您的情况下,您会收到来自同一IP地理位置的请求,因此,如果您禁止此IP,那么scraper肯定会利用IP代理,从而保持IP独立且不被发现

2.使用DNS级别过滤 使用DNS防火墙属于防刮措施。简而言之,这是为了将您的web服务设置为专用域名服务器(DNS)网络,该网络将在错误请求到达您的服务器之前过滤和防止错误请求。一些公司为复杂的网站保护提供了这种复杂的措施,您可能会更深入地了解这种服务

3.使用自定义脚本跟踪用户的统计信息并删除麻烦的请求 正如您所提到的,您已经检测到一个算法,一个刮板抓取URL。有一个跟踪请求URL的自定义脚本,并基于此启用保护措施。为此,您必须在IIS中激活[shell]脚本。副作用可能是系统响应时间会增加,从而降低服务速度。顺便说一句,您检测到的算法可能会被更改,从而取消此度量

4.限制请求频率 您可以设置请求频率或可下载数据量的限制。考虑到普通用户的可用性,必须应用这些限制。与持续请求相比,您可能会设置web服务规则来删除或延迟不需要的活动。然而,如果scraper被重新配置为模仿普通用户的行为(通过现在一些著名的工具:,Mechanize),这一措施将失败

5.设置最大会话长度 这是一个很好的方法,但通常现代的刮刀会执行会话身份验证,因此缩短会话时间并不那么有效

B.基于浏览器的识别和预防 1.为目标页面设置CAPTCHA 这是旧时代的技术,在很大程度上解决了刮削问题。然而,如果你的对手利用了这种保护,很可能会被关闭

2.将JavaScript逻辑注入web服务响应 JavaScript代码应该在请求的html内容之前或随请求的html内容一起到达客户端(用户的浏览器或抓取服务器)。此代码用于计数并向目标服务器返回特定值。基于此测试,html代码可能格式不正确,甚至可能没有发送给请求者,从而使恶意的刮取器离开。逻辑可以放在一个或多个JavaScript可加载文件中。这种JavaScript逻辑可能不仅适用于整个内容,而且只适用于站点内容的某些部分(例如价格)。为了绕过这一措施,刮刀可能需要转向甚至(通常是JavaScript),这是高度可定制的,因此成本高昂

C.基于内容的保护 1.将重要数据伪装成图像 这种内容保护方法如今被广泛使用。它确实阻止了铲运机收集数据。它的副作用是,作为图像的数据被隐藏起来用于搜索引擎索引,从而降低了网站的搜索引擎优化。如果铲运机利用系统,这种保护可能再次被绕过

2.频繁的页面结构更改
这是一种非常有效的刮伤保护方法。它不仅可以更改元素ID和类,还可以更改整个层次结构。后者涉及样式重组,因此增加了成本。当然,如果要保持内容刮削,刮板侧必须适应新的结构。如果您的服务负担得起的话,没有太多的副作用。

这样做是离题的。他们来自萨马拉州?我被那边的人狠狠揍了一顿……不,大陆航空US@Ryan,你能分享一下我的回答中哪一部分对你有帮助吗?你打算申请吗?如果已经应用,它对您有多大帮助?我问你这个问题是因为我做了网页抓取研究,然后将结果发布到scraping.pro博客上。任何反馈都将是可观的!抱歉耽搁了。我一直在半定期地重组html。我自己写了一本刮刀,我一直在尽力阻止我所有的尝试。这比应该的有趣多了。。。