Java 网站如何检测自动提取?
我正在开发一个简单的应用程序,从一个网站上提取一些货币兑换,这时我收到一条错误消息(如下),说明它们没有自动提取策略 禁止自动提取Java 网站如何检测自动提取?,java,url,iostream,Java,Url,Iostream,我正在开发一个简单的应用程序,从一个网站上提取一些货币兑换,这时我收到一条错误消息(如下),说明它们没有自动提取策略 禁止自动提取 禁止自动提取我们的内容。看见 我真的不想违反他们的政策,但我很好奇他们怎么能说出来。有人能告诉我吗?这是在HTTP服务器级别实现的 从 机器人排除标准,也称为机器人排除标准 协议或robots.txt协议,是一种防止 协作网络爬虫和其他网络机器人访问所有或 网站的一部分,该部分可以公开查看。机器人是 通常由搜索引擎用于对网站进行分类和归档,或 由站长校对源代码
禁止自动提取我们的内容。看见
我真的不想违反他们的政策,但我很好奇他们怎么能说出来。有人能告诉我吗?这是在HTTP服务器级别实现的 从 机器人排除标准,也称为机器人排除标准 协议或robots.txt协议,是一种防止 协作网络爬虫和其他网络机器人访问所有或 网站的一部分,该部分可以公开查看。机器人是 通常由搜索引擎用于对网站进行分类和归档,或 由站长校对源代码
它是通过实现在HTTP服务器级别完成的 从 机器人排除标准,也称为机器人排除标准 协议或robots.txt协议,是一种防止 协作网络爬虫和其他网络机器人访问所有或 网站的一部分,该部分可以公开查看。机器人是 通常由搜索引擎用于对网站进行分类和归档,或 由站长校对源代码
我认为他们至少关注两个参数:
- 在一个时间间隔内来自同一IP的查询数
- HTTP查询中的用户代理标头。如果它是空的或看起来不像web浏览器的用户代理头,特别是如果它指示“Java”或类似的内容;),他们可以认为这不是“合理使用”
- 在一个时间间隔内来自同一IP的查询数
- HTTP查询中的用户代理标头。如果它是空的或看起来不像web浏览器的用户代理头,特别是如果它指示“Java”或类似的内容;),他们可以认为这不是“合理使用”
- 我认为他们至少关注两个参数:
单击OK进入
3) 如果您不支持NAT,则从特定ip地址计算每小时的请求数
有关更多详细信息,请参阅asheesh laroia的Pycon演讲
也来看看
一些网站也使用
4) 验证码和重新验证码
5) 重定向,这意味着您需要添加一个HTTP引用方
,以获取数据。1)用户代理
2) 引入一个Javascript弹出窗口。类似于单击OK进入
3) 如果您不支持NAT,则从特定ip地址计算每小时的请求数
有关更多详细信息,请参阅asheesh laroia的Pycon演讲
也来看看
一些网站也使用
4) 验证码和重新验证码
5) 重定向,这意味着您需要添加一个HTTP引用方
,以获取数据。基本上,如果您请求一个URL并返回HTML页面,那么站点对此几乎无能为力,而这正是Web服务器的功能所在
但是有几种方法可以阻止机器人,与人类请求页面形成对比。其中一些是对“行为”的机器人的提示,另一些则试图检测并阻止机器人。基本上,如果你请求一个URL并返回HTML页面,网站对此几乎无能为力——这正是Web服务器的作用所在
但是有几种方法可以阻止机器人,与人类请求页面形成对比。其中一些是对“行为”机器人的提示,另一些则试图检测并阻止机器人。hmm,我想他们会计算查询,但我只做了一个。不过我不熟悉用户代理。嗯,我想他们会计算查询数,但我只做了一个。不过,我不熟悉用户代理。这并不能阻止坏机器人选择忽略robots.txt文件。这也不能阻止坏机器人选择忽略robots.txt文件。