Python 刮皮不'；爬行 #-*-编码：utf-8-*- 进口羊瘙痒等级检定器（刮擦式卡盘）：名称='provas' 允许的_域=['folhadirigida.com.br'] 起始URL=['https://folhadirigida.com.br/'] def解析（自我，回应）：#克里安多·帕吉纳 page=response.url.split（“/”[-3] 文件名=“%s.html”%page 将open（filename，'wb'）作为f： f、写入（response.body）_Python_Python 3.x_Scrapy_Web Crawler

Python 刮皮不'；爬行 #-*-编码：utf-8-*- 进口羊瘙痒等级检定器（刮擦式卡盘）：名称='provas' 允许的_域=['folhadirigida.com.br'] 起始URL=['https://folhadirigida.com.br/'] def解析（自我，回应）：#克里安多·帕吉纳 page=response.url.split（“/”[-3] 文件名=“%s.html”%page 将open（filename，'wb'）作为f： f、写入（response.body）

python python-3.x scrapy web-crawler

Python 刮皮不'；爬行 #-*-编码：utf-8-*- 进口羊瘙痒等级检定器（刮擦式卡盘）：名称='provas' 允许的_域=['folhadirigida.com.br'] 起始URL=['https://folhadirigida.com.br/'] def解析（自我，回应）：#克里安多·帕吉纳 page=response.url.split（“/”[-3] 文件名=“%s.html”%page 将open（filename，'wb'）作为f： f、写入（response.body）,python,python-3.x,scrapy,web-crawler,Python,Python 3.x,Scrapy,Web Crawler,当我运行这个程序时，为了爬网，我得到：。例如，如果我在上运行相同的程序，我会得到此页面的精确副本。为什么它不适用于第一个页面？由于HTML页面中缺少，您觉得它不太好 import scrapy 等级检定器（刮擦式卡盘）：名称='provas' 允许的_域=['folhadirigida.com.br'] 起始URL=['https://folhadirigida.com.br/'] def解析（自我，回应）：#克里安多·帕吉纳 page=response.url.split（“/”[-2]

当我运行这个程序时，为了爬网，我得到：。

例如，如果我在上运行相同的程序，我会得到此页面的精确副本。为什么它不适用于第一个页面？

由于HTML页面中缺少

，您觉得它不太好

import scrapy
等级检定器（刮擦式卡盘）：
名称='provas'
允许的_域=['folhadirigida.com.br']
起始URL=['https://folhadirigida.com.br/']
def解析（自我，回应）：#克里安多·帕吉纳
page=response.url.split（“/”[-2]
文件名=“%s.html”%page
将open（filename，'wb'）作为f：
参考体=响应体[：42]+b''\
+答复.正文[42:]
f、 写入（参考正文）

像这样将其添加到HTML正文会使页面看起来很好。

谢谢！你能解释一下你是如何找到这个结果的吗？我把我们保存的HTML文件与shell中的

view（response）

HTML代码进行了比较，结果似乎不错。