Python 网络爬虫-忽略Robots.txt文件？_Python_Web Crawler_Mechanize_Robots.txt

Python 网络爬虫-忽略Robots.txt文件？

python web-crawler

Python 网络爬虫-忽略Robots.txt文件？,python,web-crawler,mechanize,robots.txt,Python,Web Crawler,Mechanize,Robots.txt,有些服务器有robots.txt文件，以阻止网络爬虫在其网站上爬行。有没有办法让网络爬虫忽略robots.txt文件？我正在为python使用Mechanize。看起来像您需要的： from mechanize import Browser br = Browser() # Ignore robots.txt br.set_handle_robots( False ) 但是您知道自己在做什么…mechanize的示例代码如下： br = mechanize.Browser() .... #

有些服务器有robots.txt文件，以阻止网络爬虫在其网站上爬行。有没有办法让网络爬虫忽略robots.txt文件？我正在为python使用Mechanize。

看起来像您需要的：

from mechanize import Browser
br = Browser()

# Ignore robots.txt
br.set_handle_robots( False )

但是您知道自己在做什么…

mechanize的示例代码如下：

br = mechanize.Browser()
....
# Ignore robots.txt.  Do not do this without thought and consideration.
br.set_handle_robots(False)

这正是你想要的。

如果你这样做，可能会有法律问题。投票否决这是不好的，因为这是一个合法的问题。然而，这是一个坏主意。虽然我同意忽略robots.txt是个坏主意，但你提出的法律问题是什么？我建议再次提出你关于meta的问题。对于如何处理涉嫌侵犯版权的行为，似乎有不同的意见，一个明确的答案会有所帮助。我会试着在一个地方收集我得到的所有相互矛盾的建议，看看我们是否能达成一个共同的观点！