Browser robots.txt是否阻止人类收集数据?

Browser robots.txt是否阻止人类收集数据?,browser,scrapy,robots.txt,Browser,Scrapy,Robots.txt,我知道robots.txt是一个用于“robots”或“automated crawler”的文件。然而,它是否阻止人类键入“禁止”页面并手动收集数据 举个例子也许更清楚:我无法抓取此页面: https://www.drivy.com/search?address=Gare+de+Li%C3%A8ge-Guillemins&address_source=&poi_id=&latitude=50.6251&longitude=5.5659&city_disp

我知道robots.txt是一个用于“robots”或“automated crawler”的文件。然而,它是否阻止人类键入“禁止”页面并手动收集数据

举个例子也许更清楚:我无法抓取此页面:

https://www.drivy.com/search?address=Gare+de+Li%C3%A8ge-Guillemins&address_source=&poi_id=&latitude=50.6251&longitude=5.5659&city_display_name=&start_date=2019-04-06&start_time=06%3A00&end_date=2019-04-07&end_time=06%3A00&country_scope=BE

我仍然可以通过我的web浏览器的开发者工具“手动”获取包含数据的JSON文件吗?

robots.txt
文件是指导原则,它们不会阻止任何人(无论是人还是机器)访问任何内容

为Scrapy项目生成的默认
settings.py
文件设置为
True
。如果愿意,可以将其设置为
False

请记住,网站可能会采用反刮削措施来防止您刮削这些页面。但这是另一个话题。

基于,robots.txt中的规则仅针对机器人(粗体强调):

WWW机器人(也称为漫游者或蜘蛛)是通过递归检索链接页面来遍历万维网中许多页面的程序

[……]

这些事件表明需要为WWW服务器建立机制,以便向机器人指示不应访问其服务器的哪些部分

因此,机器人是自动检索其他文档中链接/引用的文档的程序

如果人工检索文档(使用浏览器或其他程序),或者人工将手动收集的URL列表提供给某个程序(并且该程序没有在检索到的文档中添加/遵循引用),robots.txt中的规则将不适用

常见问题解答“”确认了这一点:

普通的Web浏览器不是机器人,因为它们是由人操作的,并且不会自动检索引用的文档(内联图像除外)


哦,好吧,所以我想如果我使用scrapy Shell作为URL。如果响应出现,则自动表示我的机器人正在尊重robots.txt(因为默认值为TRUE)?实际上,出于历史原因,
ROBOTSTXT_-obe
的默认值为
False
,但是如果您使用
scrapy
命令行工具创建项目,生成的
settings.py
文件覆盖默认值并将其设置为
True
。如果不确定,请检查
设置.py
文件。如果您没有
settings.py
文件,则
ROBOTSTXT_obe
False
,并且您遇到的任何问题都必须与
robots.txt
文件无关。