Python 刮痧蜘蛛不';t接收到卡盘空闲信号
我有一个spider,它使用Python 刮痧蜘蛛不';t接收到卡盘空闲信号,python,web-scraping,scrapy,web-crawler,scrapy-spider,Python,Web Scraping,Scrapy,Web Crawler,Scrapy Spider,我有一个spider,它使用meta处理链中的请求,以生成包含来自多个请求的数据的项。 我用来生成请求的方法是在第一次调用parse函数时启动所有请求,但是,如果我有太多的链接要请求,那么并不是所有的请求都被安排好了,最终我也没有得到我所需要的一切 为了解决这个问题,我尝试让爬行器每次请求5个产品,在爬行器空闲时再次请求(通过连接来自爬虫的中的信号)。 问题是,由于我的代码是现在,spider_idle没有运行请求功能,因此spider会立即关闭。就好像蜘蛛没有闲着 下面是一些代码: class
meta
处理链中的请求,以生成包含来自多个请求的数据的项。
我用来生成请求的方法是在第一次调用parse函数时启动所有请求,但是,如果我有太多的链接要请求,那么并不是所有的请求都被安排好了,最终我也没有得到我所需要的一切
为了解决这个问题,我尝试让爬行器每次请求5个产品,在爬行器空闲时再次请求(通过连接来自爬虫的中的信号)。
问题是,由于我的代码是现在,spider_idle没有运行请求
功能,因此spider会立即关闭。就好像蜘蛛没有闲着
下面是一些代码:
class ProductSpider(scrapy.Spider):
def __init__(self, *args, **kwargs):
super(ProductSpider, self).__init__(*args, **kwargs)
self.parsed_data = []
self.header = {}
f = open('file.csv', 'r')
f_data = [[x.strip()] for x in f]
count=1
first = 'smth'
for product in f_data:
if first != '':
header = product[0].split(';')
for each in range(len(header[1:])):
self.header[header[each+1]] = each+1
first = ''
else:
product = product[0].split(';')
product.append(count)
count+=1
self.parsed_data.append(product)
f.close()
@classmethod
def from_crawler(cls, crawler, *args, **kwargs):
spider = super(ProductSpider, cls).from_crawler(crawler, *args, **kwargs)
crawler.signals.connect(spider.request, signal=signals.spider_idle)
return spider
name = 'products'
allowed_domains = [domains]
handle_httpstatus_list = [400, 404, 403, 503, 504]
start_urls = [start]
def next_link(self,response):
product = response.meta['product']
there_is_next = False
for each in range(response.meta['each']+1, len(product)-1):
if product[each] != '':
there_is_next = True
yield scrapy.Request(product[each], callback=response.meta['func_dict'][each], meta={'func_dict': response.meta['func_dict'],'product':product,'each':each,'price_dict':response.meta['price_dict'], 'item':response.meta['item']}, dont_filter=True)
break
if not there_is_next:
item = response.meta['item']
item['prices'] = response.meta['price_dict']
yield item
#[...] chain parsing functions for each request
def get_products(self):
products = []
data = self.parsed_data
for each in range(5):
if data:
products.append(data.pop())
return products
def request(self):
item = Header()
item['first'] = True
item['sellers'] = self.header
yield item
func_dict = {parsing_functions_for_every_site}
products = self.get_products()
if not products:
return
for product in products:
item = Product()
price_dict = {1:product[1]}
item['name'] = product[0]
item['order'] = product[-1]
for each in range(2, len(product)-1):
if product[each] != '':
#print each, func_dict, product[each]
yield scrapy.Request(product[each], callback=func_dict[each],
meta={'func_dict': func_dict,'product':product,
'each':each,'price_dict':price_dict, 'item':item})
break
raise DontCloseSpider
def parse(self, response=None):
pass
我假设您已经证明了您的请求
方法正在实现,而实际问题是该方法没有生成请求(甚至项目)
在Scrapy中处理信号时,这是一个常见的错误,因为关联的方法无法生成项/请求。绕过此问题的方法是使用
请求:
request = Request('myurl', callback=self.method_to_parse)
self.crawler.engine.crawl(
request,
spider
)
item = MyItem()
self.crawler.engine.scraper._process_spidermw_output(
item,
None,
Response(''),
spider,
)
对于项目:
request = Request('myurl', callback=self.method_to_parse)
self.crawler.engine.crawl(
request,
spider
)
item = MyItem()
self.crawler.engine.scraper._process_spidermw_output(
item,
None,
Response(''),
spider,
)
另外,spider\u idle
signal方法需要接收spider
参数,因此在您的情况下,它应该如下所示:
def request(self, spider):
...
它应该可以工作,但我会推荐一个更好的方法名。好的!谢谢,它似乎可以工作:)普通的scrapy.Request()和self.crawler.engine.crawl有什么区别?没有什么真正的区别,唯一的区别是scrapy
处理回调方法,将它们添加到请求队列中,而您没有注意到,使用self.crawler.engine..
可以明确地添加请求