Browser robots.txt是否阻止人类收集数据？_Browser_Scrapy_Robots.txt

Browser robots.txt是否阻止人类收集数据？

browser scrapy

Browser robots.txt是否阻止人类收集数据？,browser,scrapy,robots.txt,Browser,Scrapy,Robots.txt,我知道robots.txt是一个用于“robots”或“automated crawler”的文件。然而，它是否阻止人类键入“禁止”页面并手动收集数据举个例子也许更清楚：我无法抓取此页面： https://www.drivy.com/search?address=Gare+de+Li%C3%A8ge-Guillemins&address_source=&poi_id=&latitude=50.6251&longitude=5.5659&city_disp

我知道robots.txt是一个用于“robots”或“automated crawler”的文件。然而，它是否阻止人类键入“禁止”页面并手动收集数据

举个例子也许更清楚：我无法抓取此页面：

https://www.drivy.com/search?address=Gare+de+Li%C3%A8ge-Guillemins&address_source=&poi_id=&latitude=50.6251&longitude=5.5659&city_display_name=&start_date=2019-04-06&start_time=06%3A00&end_date=2019-04-07&end_time=06%3A00&country_scope=BE

我仍然可以通过我的web浏览器的开发者工具“手动”获取包含数据的JSON文件吗？

robots.txt

文件是指导原则，它们不会阻止任何人（无论是人还是机器）访问任何内容

为Scrapy项目生成的默认

settings.py

文件设置为

True

。如果愿意，可以将其设置为

False

请记住，网站可能会采用反刮削措施来防止您刮削这些页面。但这是另一个话题。

基于，robots.txt中的规则仅针对机器人（粗体强调）：

WWW机器人（也称为漫游者或蜘蛛）是通过递归检索链接页面来遍历万维网中许多页面的程序

[……]

这些事件表明需要为WWW服务器建立机制，以便向机器人指示不应访问其服务器的哪些部分

因此，机器人是自动检索其他文档中链接/引用的文档的程序

如果人工检索文档（使用浏览器或其他程序），或者人工将手动收集的URL列表提供给某个程序（并且该程序没有在检索到的文档中添加/遵循引用），robots.txt中的规则将不适用

常见问题解答“”确认了这一点：

普通的Web浏览器不是机器人，因为它们是由人操作的，并且不会自动检索引用的文档（内联图像除外）

哦，好吧，所以我想如果我使用scrapy Shell作为URL。如果响应出现，则自动表示我的机器人正在尊重robots.txt（因为默认值为TRUE）？实际上，出于历史原因，

ROBOTSTXT_-obe

的默认值为

False

，但是如果您使用

scrapy

命令行工具创建项目，生成的

settings.py

文件覆盖默认值并将其设置为

True

。如果不确定，请检查

设置.py

文件。如果您没有

settings.py

文件，则

ROBOTSTXT_obe

为

False

，并且您遇到的任何问题都必须与

robots.txt

文件无关。