Python Scrapy保存完整的html文件
我正在为我的爬虫程序使用Python Scrapy保存完整的html文件,python,scrapy,Python,Scrapy,我正在为我的爬虫程序使用scrapy,它工作正常,但我需要将整个html文件与我正在编写的csv文件分开保存。我不知道如何保存我正在解析的整个html文件 import scrapy from myfirsttime.items import RItem import csv class RSpider(scrapy.Spider): name = 'Rspider' def start_requests(self): l = open('/home/ubu
scrapy
,它工作正常,但我需要将整个html
文件与我正在编写的csv
文件分开保存。我不知道如何保存我正在解析的整个html
文件
import scrapy
from myfirsttime.items import RItem
import csv
class RSpider(scrapy.Spider):
name = 'Rspider'
def start_requests(self):
l = open('/home/ubuntu/Desktop/R.csv')
data = csv.reader(l)
for urls in data:
yield scrapy.Request(urls[0])
您可以在爬行器的解析方法中完成
def parse(self, response):
with open('page.html', 'wb') as html_file:
html_file.write(response.body)
这是最简单的方法,但您应该阅读一些有关scrapy中中间件的文档。然后,您可以创建自己的中间件,该中间件将在解析html之前保存html。这是一个很好的选择,因为您可以使用设置文件激活/停用中间件。请查看,它可能会帮助您选择正确的选项。您可以在spider的解析方法中完成此操作
def parse(self, response):
with open('page.html', 'wb') as html_file:
html_file.write(response.body)
这是最简单的方法,但您应该阅读一些有关scrapy中中间件的文档。然后,您可以创建自己的中间件,该中间件将在解析html之前保存html。这是一个很好的选择,因为您可以使用设置文件激活/停用中间件。请查看,它可能会帮助您选择正确的选项。这是您的问题的链接。这是你问题的链接。