Python 网络爬虫-忽略Robots.txt文件?

Python 网络爬虫-忽略Robots.txt文件?,python,web-crawler,mechanize,robots.txt,Python,Web Crawler,Mechanize,Robots.txt,有些服务器有robots.txt文件,以阻止网络爬虫在其网站上爬行。有没有办法让网络爬虫忽略robots.txt文件?我正在为python使用Mechanize。看起来像您需要的: from mechanize import Browser br = Browser() # Ignore robots.txt br.set_handle_robots( False ) 但是您知道自己在做什么…mechanize的示例代码如下: br = mechanize.Browser() .... #

有些服务器有robots.txt文件,以阻止网络爬虫在其网站上爬行。有没有办法让网络爬虫忽略robots.txt文件?我正在为python使用Mechanize。

看起来像您需要的:

from mechanize import Browser
br = Browser()

# Ignore robots.txt
br.set_handle_robots( False )
但是您知道自己在做什么…

mechanize的示例代码如下:

br = mechanize.Browser()
....
# Ignore robots.txt.  Do not do this without thought and consideration.
br.set_handle_robots(False)

这正是你想要的。

如果你这样做,可能会有法律问题。投票否决这是不好的,因为这是一个合法的问题。然而,这是一个坏主意。虽然我同意忽略robots.txt是个坏主意,但你提出的法律问题是什么?我建议再次提出你关于meta的问题。对于如何处理涉嫌侵犯版权的行为,似乎有不同的意见,一个明确的答案会有所帮助。我会试着在一个地方收集我得到的所有相互矛盾的建议,看看我们是否能达成一个共同的观点!