Python Scrapy保存完整的html文件

Python Scrapy保存完整的html文件,python,scrapy,Python,Scrapy,我正在为我的爬虫程序使用scrapy,它工作正常,但我需要将整个html文件与我正在编写的csv文件分开保存。我不知道如何保存我正在解析的整个html文件 import scrapy from myfirsttime.items import RItem import csv class RSpider(scrapy.Spider): name = 'Rspider' def start_requests(self): l = open('/home/ubu

我正在为我的爬虫程序使用
scrapy
,它工作正常,但我需要将整个
html
文件与我正在编写的
csv
文件分开保存。我不知道如何保存我正在解析的整个
html
文件

import scrapy
from myfirsttime.items import RItem
import csv

class RSpider(scrapy.Spider):

    name = 'Rspider'

    def start_requests(self):
        l = open('/home/ubuntu/Desktop/R.csv')
        data = csv.reader(l)
        for urls in data:
            yield scrapy.Request(urls[0])

您可以在爬行器的解析方法中完成

 def parse(self, response):
    with open('page.html', 'wb') as html_file:
        html_file.write(response.body)

这是最简单的方法,但您应该阅读一些有关scrapy中中间件的文档。然后,您可以创建自己的中间件,该中间件将在解析html之前保存html。这是一个很好的选择,因为您可以使用设置文件激活/停用中间件。请查看,它可能会帮助您选择正确的选项。

您可以在spider的解析方法中完成此操作

 def parse(self, response):
    with open('page.html', 'wb') as html_file:
        html_file.write(response.body)

这是最简单的方法,但您应该阅读一些有关scrapy中中间件的文档。然后,您可以创建自己的中间件,该中间件将在解析html之前保存html。这是一个很好的选择,因为您可以使用设置文件激活/停用中间件。请查看,它可能会帮助您选择正确的选项。

这是您的问题的链接。这是你问题的链接。