Python 在哪一边是';HTTP错误403:robots.txt不允许请求';生成?
我正在尝试机械化,以简化一些日常工作。我通过使用Python 在哪一边是';HTTP错误403:robots.txt不允许请求';生成?,python,mechanize,Python,Mechanize,我正在尝试机械化,以简化一些日常工作。我通过使用br.set\u handle\u robots(False)绕过了这个错误。有人谈论使用它的道德性。我想知道的是这个错误是在哪里产生的,是在我这边还是在服务器端?我的意思是,Mechanize在看到一些robots.txt规则时是否抛出异常,或者服务器在检测到我使用自动化工具时是否拒绝请求?服务器检测到用户代理。如果用户代理与robots.txt中的匹配,则客户端将应用规则。 默认情况下,mechanize返回“pythonurllib/2.7”
br.set\u handle\u robots(False)
绕过了这个错误。有人谈论使用它的道德性。我想知道的是这个错误是在哪里产生的,是在我这边还是在服务器端?我的意思是,Mechanize在看到一些robots.txt
规则时是否抛出异常,或者服务器在检测到我使用自动化工具时是否拒绝请求?服务器检测到用户代理。如果用户代理与robots.txt中的匹配,则客户端将应用规则。
默认情况下,mechanize返回“pythonurllib/2.7”
请参见服务器会通过此类响应阻止您的活动 这是你的网站吗?如果没有,请遵循以下规则:
robots.txt
文件robots.txt
不需要它否则,请做好准备网站所有者根据用户代理、IP或其他他认为有别于合法用户的信息阻止您。我试图机械化的网站阻止我查看robots.txt,这是什么意思。这是否意味着不允许任何机器人访问它?