Scrapy ignore settings.py_Scrapy - Fatal编程技术网

Scrapy ignore settings.py

scrapy

Scrapy ignore settings.py,scrapy,Scrapy,scrapy忽略我的settins.py 我的刮刀 import scrapy 类BlogSpider（scrapy.Spider）：名称='blogspider' 起始URL=['https://www.doctolib.de/directory/a'] def解析（自我，响应）：如果不是response.xpath（'//title'）：屈服请求（url=response.url，dont\u filter=True）如果不是response.xpath（'//lead'）：屈服

scrapy忽略我的settins.py

我的刮刀

import scrapy
类BlogSpider（scrapy.Spider）：
名称='blogspider'
起始URL=['https://www.doctolib.de/directory/a']
def解析（自我，响应）：
如果不是response.xpath（'//title'）：
屈服请求（url=response.url，dont\u filter=True）
如果不是response.xpath（'//lead'）：
屈服请求（url=response.url，dont\u filter=True）
对于response.css（“.seo目录医生链接”）中的标题：
产生{'title'：title.css（'a:：attr（href'））.extract_first（）}
next_page=response.css（'li.seo-directory-page>a[rel=next]：：attr（href）'）。提取_first（）
如果下一页：
yield scrapy.Request（response.urljoin（next_page），callback=self.parse）

settings.py文件应与spider文件夹并行，您的scraper.py文件应位于spider文件夹中。您可以覆盖现有的settings.py文件。

从您最近发布的其他帖子来看，您似乎正在努力启动一个粗糙的项目。这将是一个好主意，阅读刮擦教程

总之，它将描述如何使用命令

scrapy startproject Blogspider

这将设置3个链接文件夹：Blogspider>>Blogspider>>spider

在第二个文件夹中将是

items.py

和

settings.py

文件以及一些其他文件。您只需要编辑

items.py

文件

Spiders文件夹中是您放置spider的地方，它将读取上一个文件夹中的

items.py

和

settings.py

文件等。

ohh好的，Spiders fodler在Ubuntu上的位置在哪里？运行scrapy startproject name。它将在同一路径中创建一个目录。你会发现里面的一切