Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/77.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 刮皮不';爬行 #-*-编码:utf-8-*- 进口羊瘙痒 等级检定器(刮擦式卡盘): 名称='provas' 允许的_域=['folhadirigida.com.br'] 起始URL=['https://folhadirigida.com.br/'] def解析(自我,回应):#克里安多·帕吉纳 page=response.url.split(“/”[-3] 文件名=“%s.html”%page 将open(filename,'wb')作为f: f、 写入(response.body)_Python_Python 3.x_Scrapy_Web Crawler - Fatal编程技术网

Python 刮皮不';爬行 #-*-编码:utf-8-*- 进口羊瘙痒 等级检定器(刮擦式卡盘): 名称='provas' 允许的_域=['folhadirigida.com.br'] 起始URL=['https://folhadirigida.com.br/'] def解析(自我,回应):#克里安多·帕吉纳 page=response.url.split(“/”[-3] 文件名=“%s.html”%page 将open(filename,'wb')作为f: f、 写入(response.body)

Python 刮皮不';爬行 #-*-编码:utf-8-*- 进口羊瘙痒 等级检定器(刮擦式卡盘): 名称='provas' 允许的_域=['folhadirigida.com.br'] 起始URL=['https://folhadirigida.com.br/'] def解析(自我,回应):#克里安多·帕吉纳 page=response.url.split(“/”[-3] 文件名=“%s.html”%page 将open(filename,'wb')作为f: f、 写入(response.body),python,python-3.x,scrapy,web-crawler,Python,Python 3.x,Scrapy,Web Crawler,当我运行这个程序时,为了爬网,我得到:。 例如,如果我在上运行相同的程序,我会得到此页面的精确副本。为什么它不适用于第一个页面?由于HTML页面中缺少,您觉得它不太好 import scrapy 等级检定器(刮擦式卡盘): 名称='provas' 允许的_域=['folhadirigida.com.br'] 起始URL=['https://folhadirigida.com.br/'] def解析(自我,回应):#克里安多·帕吉纳 page=response.url.split(“/”[-2]

当我运行这个程序时,为了爬网,我得到:。
例如,如果我在上运行相同的程序,我会得到此页面的精确副本。为什么它不适用于第一个页面?

由于HTML页面中缺少
,您觉得它不太好

import scrapy
等级检定器(刮擦式卡盘):
名称='provas'
允许的_域=['folhadirigida.com.br']
起始URL=['https://folhadirigida.com.br/']
def解析(自我,回应):#克里安多·帕吉纳
page=response.url.split(“/”[-2]
文件名=“%s.html”%page
将open(filename,'wb')作为f:
参考体=响应体[:42]+b''\
+答复.正文[42:]
f、 写入(参考正文)

像这样将其添加到HTML正文会使页面看起来很好。

谢谢!你能解释一下你是如何找到这个结果的吗?我把我们保存的HTML文件与shell中的
view(response)
HTML代码进行了比较,结果似乎不错。