Scrapy ignore settings.py
scrapy忽略我的settins.py 我的刮刀Scrapy ignore settings.py,scrapy,Scrapy,scrapy忽略我的settins.py 我的刮刀 import scrapy 类BlogSpider(scrapy.Spider): 名称='blogspider' 起始URL=['https://www.doctolib.de/directory/a'] def解析(自我,响应): 如果不是response.xpath('//title'): 屈服请求(url=response.url,dont\u filter=True) 如果不是response.xpath('//lead'): 屈服
import scrapy
类BlogSpider(scrapy.Spider):
名称='blogspider'
起始URL=['https://www.doctolib.de/directory/a']
def解析(自我,响应):
如果不是response.xpath('//title'):
屈服请求(url=response.url,dont\u filter=True)
如果不是response.xpath('//lead'):
屈服请求(url=response.url,dont\u filter=True)
对于response.css(“.seo目录医生链接”)中的标题:
产生{'title':title.css('a::attr(href')).extract_first()}
next_page=response.css('li.seo-directory-page>a[rel=next]::attr(href)')。提取_first()
如果下一页:
yield scrapy.Request(response.urljoin(next_page),callback=self.parse)
settings.py文件应与spider文件夹并行,您的scraper.py文件应位于spider文件夹中。您可以覆盖现有的settings.py文件。从您最近发布的其他帖子来看,您似乎正在努力启动一个粗糙的项目。这将是一个好主意,阅读刮擦教程
总之,它将描述如何使用命令scrapy startproject Blogspider
这将设置3个链接文件夹:Blogspider>>Blogspider>>spider
在第二个文件夹中将是items.py
和settings.py
文件以及一些其他文件。您只需要编辑items.py
文件
Spiders文件夹中是您放置spider的地方,它将读取上一个文件夹中的
items.py
和settings.py
文件等。ohh好的,Spiders fodler在Ubuntu上的位置在哪里?运行scrapy startproject name。它将在同一路径中创建一个目录。你会发现里面的一切