Python 刮皮不';爬行 #-*-编码:utf-8-*- 进口羊瘙痒 等级检定器(刮擦式卡盘): 名称='provas' 允许的_域=['folhadirigida.com.br'] 起始URL=['https://folhadirigida.com.br/'] def解析(自我,回应):#克里安多·帕吉纳 page=response.url.split(“/”[-3] 文件名=“%s.html”%page 将open(filename,'wb')作为f: f、 写入(response.body)
当我运行这个程序时,为了爬网,我得到:。Python 刮皮不';爬行 #-*-编码:utf-8-*- 进口羊瘙痒 等级检定器(刮擦式卡盘): 名称='provas' 允许的_域=['folhadirigida.com.br'] 起始URL=['https://folhadirigida.com.br/'] def解析(自我,回应):#克里安多·帕吉纳 page=response.url.split(“/”[-3] 文件名=“%s.html”%page 将open(filename,'wb')作为f: f、 写入(response.body),python,python-3.x,scrapy,web-crawler,Python,Python 3.x,Scrapy,Web Crawler,当我运行这个程序时,为了爬网,我得到:。 例如,如果我在上运行相同的程序,我会得到此页面的精确副本。为什么它不适用于第一个页面?由于HTML页面中缺少,您觉得它不太好 import scrapy 等级检定器(刮擦式卡盘): 名称='provas' 允许的_域=['folhadirigida.com.br'] 起始URL=['https://folhadirigida.com.br/'] def解析(自我,回应):#克里安多·帕吉纳 page=response.url.split(“/”[-2]
例如,如果我在上运行相同的程序,我会得到此页面的精确副本。为什么它不适用于第一个页面?由于HTML页面中缺少
,您觉得它不太好
import scrapy
等级检定器(刮擦式卡盘):
名称='provas'
允许的_域=['folhadirigida.com.br']
起始URL=['https://folhadirigida.com.br/']
def解析(自我,回应):#克里安多·帕吉纳
page=response.url.split(“/”[-2]
文件名=“%s.html”%page
将open(filename,'wb')作为f:
参考体=响应体[:42]+b''\
+答复.正文[42:]
f、 写入(参考正文)
像这样将其添加到HTML正文会使页面看起来很好。谢谢!你能解释一下你是如何找到这个结果的吗?我把我们保存的HTML文件与shell中的
view(response)
HTML代码进行了比较,结果似乎不错。