Browser robots.txt是否阻止人类收集数据?
我知道robots.txt是一个用于“robots”或“automated crawler”的文件。然而,它是否阻止人类键入“禁止”页面并手动收集数据 举个例子也许更清楚:我无法抓取此页面:Browser robots.txt是否阻止人类收集数据?,browser,scrapy,robots.txt,Browser,Scrapy,Robots.txt,我知道robots.txt是一个用于“robots”或“automated crawler”的文件。然而,它是否阻止人类键入“禁止”页面并手动收集数据 举个例子也许更清楚:我无法抓取此页面: https://www.drivy.com/search?address=Gare+de+Li%C3%A8ge-Guillemins&address_source=&poi_id=&latitude=50.6251&longitude=5.5659&city_disp
https://www.drivy.com/search?address=Gare+de+Li%C3%A8ge-Guillemins&address_source=&poi_id=&latitude=50.6251&longitude=5.5659&city_display_name=&start_date=2019-04-06&start_time=06%3A00&end_date=2019-04-07&end_time=06%3A00&country_scope=BE
我仍然可以通过我的web浏览器的开发者工具“手动”获取包含数据的JSON文件吗?
robots.txt
文件是指导原则,它们不会阻止任何人(无论是人还是机器)访问任何内容
为Scrapy项目生成的默认settings.py
文件设置为True
。如果愿意,可以将其设置为False
请记住,网站可能会采用反刮削措施来防止您刮削这些页面。但这是另一个话题。基于,robots.txt中的规则仅针对机器人(粗体强调):
WWW机器人(也称为漫游者或蜘蛛)是通过递归检索链接页面来遍历万维网中许多页面的程序
[……]
这些事件表明需要为WWW服务器建立机制,以便向机器人指示不应访问其服务器的哪些部分
因此,机器人是自动检索其他文档中链接/引用的文档的程序
如果人工检索文档(使用浏览器或其他程序),或者人工将手动收集的URL列表提供给某个程序(并且该程序没有在检索到的文档中添加/遵循引用),robots.txt中的规则将不适用
常见问题解答“”确认了这一点:
普通的Web浏览器不是机器人,因为它们是由人操作的,并且不会自动检索引用的文档(内联图像除外)
哦,好吧,所以我想如果我使用scrapy Shell作为URL。如果响应出现,则自动表示我的机器人正在尊重robots.txt(因为默认值为TRUE)?实际上,出于历史原因,
ROBOTSTXT_-obe
的默认值为False
,但是如果您使用scrapy
命令行工具创建项目,生成的settings.py
文件覆盖默认值并将其设置为True
。如果不确定,请检查设置.py
文件。如果您没有settings.py
文件,则ROBOTSTXT_obe
为False
,并且您遇到的任何问题都必须与robots.txt
文件无关。