Python 从爬行爬行器中的相对url创建绝对路径
我需要从这些相对URL中生成绝对URL。试图使用进程链接,但徒劳。有什么建议吗Python 从爬行爬行器中的相对url创建绝对路径,python,scrapy,Python,Scrapy,我需要从这些相对URL中生成绝对URL。试图使用进程链接,但徒劳。有什么建议吗 # -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule class FfySpider(CrawlSpider): name = 'FFy' allowed_domains = ['cartoo
# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
class FfySpider(CrawlSpider):
name = 'FFy'
allowed_domains = ['cartoon3rbi.net']
start_urls = ['https://www.cartoon3rbi.net/cats-pages-1.html/']
rules = (
Rule(LinkExtractor(restrict_xpaths='//div[@class="cartoon_cat_name"]'), process_links='make_absolute_path',
callback='parse_item', follow=True),
)
def parse_item(self, response):
yield {
'name': response.xpath('//div[@class="cartoon_eps_name"]/a/text()[2]').extract(),
}
def make_absolute_path(self, links):
for link in links:
url = 'https://www.cartoon3rbi.net/' + link
return url
从scrapy文档: process_links是一个可调用的字符串或字符串(在这种情况下,将使用具有该名称的spider对象中的方法),将使用指定的link_提取器为每个响应提取的每个链接列表调用该字符串。这主要用于过滤目的 我认为,
process\u links
指定的函数是通过链接列表调用的,应该返回链接列表(或生成器)
def make_绝对路径(self,links):
对于链接中的链接:
url='1〕https://www.cartoon3rbi.net/“+链接
收益url
规则中的xpath不提供任何链接,您可以指定要遵循哪些链接吗?第一页上节目集的链接