Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/wpf/14.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 网站如何检测自动提取?_Java_Url_Iostream - Fatal编程技术网

Java 网站如何检测自动提取?

Java 网站如何检测自动提取?,java,url,iostream,Java,Url,Iostream,我正在开发一个简单的应用程序,从一个网站上提取一些货币兑换,这时我收到一条错误消息(如下),说明它们没有自动提取策略 禁止自动提取 禁止自动提取我们的内容。看见 我真的不想违反他们的政策,但我很好奇他们怎么能说出来。有人能告诉我吗?这是在HTTP服务器级别实现的 从 机器人排除标准,也称为机器人排除标准 协议或robots.txt协议,是一种防止 协作网络爬虫和其他网络机器人访问所有或 网站的一部分,该部分可以公开查看。机器人是 通常由搜索引擎用于对网站进行分类和归档,或 由站长校对源代码

我正在开发一个简单的应用程序,从一个网站上提取一些货币兑换,这时我收到一条错误消息(如下),说明它们没有自动提取策略

禁止自动提取
禁止自动提取我们的内容。看见


我真的不想违反他们的政策,但我很好奇他们怎么能说出来。有人能告诉我吗?

这是在HTTP服务器级别实现的

机器人排除标准,也称为机器人排除标准 协议或robots.txt协议,是一种防止 协作网络爬虫和其他网络机器人访问所有或 网站的一部分,该部分可以公开查看。机器人是 通常由搜索引擎用于对网站进行分类和归档,或 由站长校对源代码


它是通过实现在HTTP服务器级别完成的

机器人排除标准,也称为机器人排除标准 协议或robots.txt协议,是一种防止 协作网络爬虫和其他网络机器人访问所有或 网站的一部分,该部分可以公开查看。机器人是 通常由搜索引擎用于对网站进行分类和归档,或 由站长校对源代码


我认为他们至少关注两个参数:

  • 在一个时间间隔内来自同一IP的查询数
  • HTTP查询中的用户代理标头。如果它是空的或看起来不像web浏览器的用户代理头,特别是如果它指示“Java”或类似的内容;),他们可以认为这不是“合理使用”

    • 我认为他们至少关注两个参数:

      • 在一个时间间隔内来自同一IP的查询数
      • HTTP查询中的用户代理标头。如果它是空的或看起来不像web浏览器的用户代理头,特别是如果它指示“Java”或类似的内容;),他们可以认为这不是“合理使用”
      1)用户代理

      2) 引入一个Javascript弹出窗口。类似于
      单击OK进入

      3) 如果您不支持NAT,则从特定ip地址计算每小时的请求数

      有关更多详细信息,请参阅asheesh laroia的Pycon演讲

      也来看看

      一些网站也使用

      4) 验证码和重新验证码

      5) 重定向,这意味着您需要添加一个
      HTTP引用方
      ,以获取数据。

      1)用户代理

      2) 引入一个Javascript弹出窗口。类似于
      单击OK进入

      3) 如果您不支持NAT,则从特定ip地址计算每小时的请求数

      有关更多详细信息,请参阅asheesh laroia的Pycon演讲

      也来看看

      一些网站也使用

      4) 验证码和重新验证码


      5) 重定向,这意味着您需要添加一个
      HTTP引用方
      ,以获取数据。

      基本上,如果您请求一个URL并返回HTML页面,那么站点对此几乎无能为力,而这正是Web服务器的功能所在


      但是有几种方法可以阻止机器人,与人类请求页面形成对比。其中一些是对“行为”的机器人的提示,另一些则试图检测并阻止机器人。

      基本上,如果你请求一个URL并返回HTML页面,网站对此几乎无能为力——这正是Web服务器的作用所在


      但是有几种方法可以阻止机器人,与人类请求页面形成对比。其中一些是对“行为”机器人的提示,另一些则试图检测并阻止机器人。

      hmm,我想他们会计算查询,但我只做了一个。不过我不熟悉用户代理。嗯,我想他们会计算查询数,但我只做了一个。不过,我不熟悉用户代理。这并不能阻止坏机器人选择忽略robots.txt文件。这也不能阻止坏机器人选择忽略robots.txt文件。