Python 如何将Scrapy的输出保存到文件或数据库中
我正在编写一个脚本,它可以进入特定的网站并收集信息,在收集信息之后,它应该将所有信息保存到一个文件中(如果将其保存到数据库中会更好)。我读过关于提要导出和管道的文章,但我是Python和Scrapy的新手,所以我还没有找到解决方案 有人能给我解释一下如何使用饲料出口或管道吗?我读过文档,但不清楚。以下是我目前的代码:Python 如何将Scrapy的输出保存到文件或数据库中,python,scrapy,web-crawler,Python,Scrapy,Web Crawler,我正在编写一个脚本,它可以进入特定的网站并收集信息,在收集信息之后,它应该将所有信息保存到一个文件中(如果将其保存到数据库中会更好)。我读过关于提要导出和管道的文章,但我是Python和Scrapy的新手,所以我还没有找到解决方案 有人能给我解释一下如何使用饲料出口或管道吗?我读过文档,但不清楚。以下是我目前的代码: import scrapy class BrickSetSpider(scrapy.Spider): name = "brickset_spider" sta
import scrapy
class BrickSetSpider(scrapy.Spider):
name = "brickset_spider"
start_urls = ['http://brickset.com/sets/year-2016']
def parse(self, response):
SET_SELECTOR = '.set'
for brickset in response.css(SET_SELECTOR):
NAME_SELECTOR = 'h1 a ::text'
PIECES_SELECTOR = './/dl[dt/text() = "Pieces"]/dd/a/text()'
MINIFIGS_SELECTOR = './/dl[dt/text() = "Minifigs"]/dd[2]/a/text()'
IMAGE_SELECTOR = 'img ::attr(src)'
yield {
'name': brickset.css(NAME_SELECTOR).extract_first(),
'pieces': brickset.xpath(PIECES_SELECTOR).extract_first(),
'minifigs': brickset.xpath(MINIFIGS_SELECTOR).extract_first(),
'image': brickset.css(IMAGE_SELECTOR).extract_first(),
}
NEXT_PAGE_SELECTOR = '.next a ::attr(href)'
next_page = response.css(NEXT_PAGE_SELECTOR).extract_first()
if next_page:
yield scrapy.Request(
response.urljoin(next_page),
callback=self.parse
)
学习Python对我来说是如此的有趣,但是我被困在了这个问题上,我真的需要让这个脚本工作起来。提前感谢您的建议和帮助
干杯 您可以将结果输出到CSV文件
scrapy crawl nameofspider -o file.csv
您可以将结果输出到CSV文件
scrapy crawl nameofspider -o file.csv
您应该能够在设置文件中设置
FEED\u格式
和FEED\u URI
。你不需要特别麻烦管道
类似于(在settings.py
中):
您应该能够在设置文件中设置
FEED\u格式
和FEED\u URI
。你不需要特别麻烦管道
类似于(在settings.py
中):
但这不是命令吗?我需要用脚本保存数据。否则,我每次运行脚本时都必须键入该命令,对吗?但它不是cmd命令吗?我需要用脚本保存数据。否则,我每次运行脚本时都必须键入该命令,对吗?