Python scrapy follow大XML提要链接_Python_Scrapy

Python scrapy follow大XML提要链接

python scrapy

Python scrapy follow大XML提要链接,python,scrapy,Python,Scrapy,我使用scrapy XMLFeedSpider和一个itertag来循环300兆XML提要除了将那个大提要中的每个条目保存为一个条目外，每个条目还有一些要爬网的进一步链接，这次是它到html页面的链接我知道html页面是使用CrawlerSpider进行爬网的，所以我试图找到一种方法，使用这种爬行器跟踪大型XML提要中的链接谢谢，盖伊首先读到：我用scrapy创建了一个项目。下面是获取该特定XML的所有URL的代码。您应该使用spider目录 #!/usr/bin/env python

我使用scrapy XMLFeedSpider和一个itertag来循环300兆XML提要

除了将那个大提要中的每个条目保存为一个条目外，每个条目还有一些要爬网的进一步链接，这次是它到html页面的链接

我知道html页面是使用CrawlerSpider进行爬网的，所以我试图找到一种方法，使用这种爬行器跟踪大型XML提要中的链接

谢谢，盖伊首先读到：

我用scrapy创建了一个项目。下面是获取该特定XML的所有URL的代码。您应该使用spider目录

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import re
from scrapy.item import BaseItem
from scrapy.spider import BaseSpider
from scrapy.selector import XmlXPathSelector
from scrapy.utils.spider import create_spider_for_request
from scrapy.utils.misc import load_object
from scrapy.utils.response import open_in_browser

class TestSpider(BaseSpider):
    name = "test"
    start_urls = ["http://fgeek.kapsi.fi/test.xml"]

    def parse(self, response):
        xpath = XmlXPathSelector(response)
        count = 0
        for url in xpath.select('entries/entry/url').extract():
            print url

运行“scrapy crawl projectname”以使用爬行器。