如何阻止Ruby Mechanize Gem的访问?

如何阻止Ruby Mechanize Gem的访问?,ruby,screen-scraping,web-scraping,mechanize,mechanize-ruby,Ruby,Screen Scraping,Web Scraping,Mechanize,Mechanize Ruby,我开始使用Mechanize gem for Ruby,我想知道是否有web服务器可以检测并阻止Mechanize代理的活动 如果是,阻止Mechanize报废或访问网站的代码或步骤是什么?您可以建立robots.txt文件,希望人们尊重它 如果您开始按用户代理字符串进行阻止,他们可以假装是IE。他们可以通过多种方式检测自动进程正在访问他们的站点: 他们可以检查用户代理字符串 他们可以看到你的要求。浏览器请求HTML页面中的所有图像和CSS。默认情况下,Mechanize将不会启用 一个人停下

我开始使用Mechanize gem for Ruby,我想知道是否有web服务器可以检测并阻止Mechanize代理的活动


如果是,阻止Mechanize报废或访问网站的代码或步骤是什么?

您可以建立robots.txt文件,希望人们尊重它


如果您开始按用户代理字符串进行阻止,他们可以假装是IE。

他们可以通过多种方式检测自动进程正在访问他们的站点:

  • 他们可以检查用户代理字符串
  • 他们可以看到你的要求。浏览器请求HTML页面中的所有图像和CSS。默认情况下,Mechanize将不会启用
  • 一个人停下来阅读一页并理解它所说的话。一段代码不会停止,除非它被编程为暂停,否则它将全速运行,以便请求一个接一个地快速响应
这些不一定是指机械化运行,但它们是一个网站的代码抓取指纹

他们能做些什么呢

  • 禁止该用户代理
  • 禁止来自您的IP号码、域或子网的任何请求
  • 禁止来自您的IP号码、域或子网的任何快速请求
根据服务器和网络硬件的不同,有很多不同的方法来处理这些事情


这个问题与StackOverflow的主题无关,可能应该在或

上提出。您可以随时拔下服务器的插头。拔下服务器的以太网或电源?我正在使用Mechanize进行web刮板,您知道如何避免这些锁吗?我有一个网站,并返回403错误(我尝试使用一个新的IP,但它是相同的),你最好的办法是阅读他们的服务条款,并检查他们的支持,看看他们是否有做你想做的事情的规定,通过某个服务器或使用API。我不会帮你避开他们的障碍,因为那是你的问题;当我不知道你对他们的页面和/或内容做了什么时,我不想以任何方式参与其中。这是公开信息,但他们没有API:(,我想他们会阻拦我,因为我正在学习如何获取网站,我在服务器xD中大量使用,然后我使用计时器,但为时已晚。谢谢你的回答。你有没有尝试过简单的方法并打电话给他们,问他们如何才能恢复他们的好感?