Python 2.7 使用scrapy从flipkart中删除数据
我正试图从flipkart.com上搜集一些信息。为此,我正在使用Scrapy。我需要的信息是flipkart上每种产品的信息 我已经为我的spider使用了以下代码 从scrapy.contrib.spider导入爬行蜘蛛,规则Python 2.7 使用scrapy从flipkart中删除数据,python-2.7,selenium,web-scraping,scrapy,Python 2.7,Selenium,Web Scraping,Scrapy,我正试图从flipkart.com上搜集一些信息。为此,我正在使用Scrapy。我需要的信息是flipkart上每种产品的信息 我已经为我的spider使用了以下代码 从scrapy.contrib.spider导入爬行蜘蛛,规则 from scrapy.contrib.linkextractors import LinkExtractor from scrapy.selector import HtmlXPathSelector from tutorial.items import Tuto
from scrapy.contrib.linkextractors import LinkExtractor
from scrapy.selector import HtmlXPathSelector
from tutorial.items import TutorialItem
class WebCrawler(CrawlSpider):
name = "flipkart"
allowed_domains = ['flipkart.com']
start_urls = ['http://www.flipkart.com/store-directory']
rules = [
Rule(LinkExtractor(allow=['/(.*?)/p/(.*?)']), 'parse_flipkart', cb_kwargs=None, follow=True),
Rule(LinkExtractor(allow=['/(.*?)/pr?(.*?)']), follow=True)
]
@staticmethod
def parse_flipkart(response):
hxs = HtmlXPathSelector(response)
item = FlipkartItem()
item['featureKey'] = hxs.select('//td[@class="specsKey"]/text()').extract()
yield item
我的意图是爬过每个产品类别页面(由第二条规则指定),并遵循类别页面内的产品页面(第一条规则)从产品页面中刮取数据
response.css(".clp-breadcrumb").xpath('./ul/li//text()').extract()
response.css(".clp-breadcrumb").xpath('./ul/li//text()').extract()