Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/solr/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 用于域收集的Scrapy-Broad爬虫_Python_Python 2.7_Scrapy - Fatal编程技术网

Python 用于域收集的Scrapy-Broad爬虫

Python 用于域收集的Scrapy-Broad爬虫,python,python-2.7,scrapy,Python,Python 2.7,Scrapy,我正在尝试为域收集构建一个Scrapy爬虫程序 我想要的是收集后缀为“.sk”或“.cz”的网站 我的想法是给出一个开始url的列表(1000个sk和czurl),爬虫程序将进入url像www.example.com,检查链接,如果这些链接有正确的后缀,然后生成这些url基本表单的Request对象 所以爬虫程序转到example.com,它提取两个链接:https://www.page.cz/about和https://www.liss.cz/info/45并使用这些URL生成两个请求:htt

我正在尝试为域收集构建一个Scrapy爬虫程序

我想要的是收集后缀为“.sk”或“.cz”的网站

我的想法是给出一个开始url的列表(1000个
sk
cz
url),爬虫程序将进入
url
www.example.com
,检查链接,如果这些链接有正确的后缀,然后生成这些
url
基本表单的
Request
对象

所以爬虫程序转到
example.com
,它提取两个链接:
https://www.page.cz/about
https://www.liss.cz/info/45
并使用这些URL生成两个请求:
https://www.page.cz
https://www.liss.cz

我现在创建了一个简单的蜘蛛,但它找不到任何链接和结尾

你有什么办法来改进这只蜘蛛吗

class doSpider(CrawlSpider):
    name = "do_crawler"
    start_urls = [
              "https://www.seznam.cz/",
    ]



    def __init__(self, *args, **kwargs):
        self.extractor = LxmlLinkExtractor(allow='/.cz|.sk/')
        super(doSpider, self).__init__(*args, **kwargs)

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(url, callback=self.parse_links, meta={})


    def parse_links(self, response):
        for url in self.extractor.extract_links(response):
            # parse and save to db
            yield scrapy.Request(url, callback=self.parse_links, meta={})

我认为这不是进行代码审查和代码改进讨论的合适场所。也许试试。我可以给出的一般建议是让
errbacks
来满足您广泛的爬网请求,并检查一下,我认为这不是进行代码审查和代码改进讨论的合适地方。也许试试。我可以给出的一般建议是让
errbacks
用于您的广泛爬网请求,然后签出