Javascript 如何将scrapyjs功能集成到Scrapy项目中_Javascript_Python_Python 2.7_Web Scraping_Scrapy

Javascript 如何将scrapyjs功能集成到Scrapy项目中

javascript python python-2.7 web-scraping scrapy

Javascript 如何将scrapyjs功能集成到Scrapy项目中,javascript,python,python-2.7,web-scraping,scrapy,Javascript,Python,Python 2.7,Web Scraping,Scrapy,我使用Scrapy框架制作了一个web刮板，从中获取音乐会门票数据。我已经能够成功地从页面上的每张票证内部的元素中提取数据，除了价格，只有通过单击“票证”按钮进入票证页面并从页面上的票证中提取票证价格才能访问价格经过大量的谷歌搜索，我发现Scrapy.js（基于Splash）可以在Scrapy中使用，与页面上的JavaScript交互（比如需要单击的按钮）。我已经看到了一些关于如何使用Splash与JavaScript交互的基本示例，但没有一个示例介绍Splash与Scrapy的集成（甚至在文

我使用Scrapy框架制作了一个web刮板，从中获取音乐会门票数据。我已经能够成功地从页面上的每张票证内部的元素中提取数据，除了价格，只有通过单击“票证”按钮进入票证页面并从页面上的票证中提取票证价格才能访问价格

经过大量的谷歌搜索，我发现Scrapy.js（基于Splash）可以在Scrapy中使用，与页面上的JavaScript交互（比如需要单击的按钮）。我已经看到了一些关于如何使用Splash与JavaScript交互的基本示例，但没有一个示例介绍Splash与Scrapy的集成（甚至在文档中也没有）

我一直遵循使用项目加载器将刮取的元素存储在解析方法中的格式，然后发出一个请求，该请求应该转到另一个链接，并通过调用第二个解析方法从该页面解析html

(e.g. yield scrapy.Request(next_link, callback=self.parse_price)

但是，由于我将使用Scrapy js，这方面的代码将会有所改变。为了整合Scrapyjs，我考虑使用类似以下的函数：

function main(splash)
  splash:go("http://example.com")
  splash:wait(0.5)
  local title = splash:evaljs("document.title")
return {title=title}

但是由于javascript不能直接在python程序中编写，我如何/在何处将这种功能合并到程序中，以便通过单击按钮和解析html导航到下一页？很明显，我对网页抓取非常陌生，所以任何帮助都将不胜感激。spider的代码如下所示：

音乐会门票

这里的关键点是，

scrapyjs

提供了您需要的

scrapyjs.SplashMiddleware

中间件。然后，中间件将处理每一个具有

仅供参考，我个人曾经成功地将

Scrapy

与

scrapyjs

一起使用。

谢谢您的回答！问题是，必须使用javascript单击tickets按钮来检索tickets页面的链接，然后将其传递到scrapy.Request中。但是既然javascript必须在请求第二个页面之前执行，那么我是否必须在刮除元素之后在第一个（当前）页面上执行请求？你介意在我提供的代码中添加一个例子吗？这样我就可以有一个想法了，因为我还不清楚如何继续。我已经完成了scrapy js和splash listed@loremIpsum1771的安装和配置，好的，但是你需要点击哪个“tickets”链接？请提供页面url和按钮位置。是我在测试期间使用的链接。基本上，如果您查看页面的html，表中的每个ticket（tr）都有一个名为“tickets”的按钮。我需要转到按钮将请求的链接，然后从下一页中获取最低票价。因此，从本质上说，每次我从每张票据中刮取所有指定元素时，它还需要转到下一页刮取最低价格，将所有内容加载到项目中，返回上一页并重复此过程。@loremIpsum1771嗯，有一个

元素带有

itemprop=“url”

包含到票证的直接链接。这不是你需要的吗？谢谢

from scrapy.contrib.spiders import CrawlSpider , Rule
from scrapy.selector import HtmlXPathSelector
from scrapy.selector import Selector
from scrapy.contrib.loader import XPathItemLoader
from scrapy.contrib.loader.processor import Join, MapCompose
from concert_comparator.items import ComparatorItem

bandname = raw_input("Enter a bandname \n")
vs_url = "http://www.vividseats.com/concerts/" + bandname + "-tickets.html"

class MySpider(CrawlSpider):
    handle_httpstatus_list = [416]
    name = 'comparator'
    allowed_domains = ["www.vividseats.com"]
    start_urls = [vs_url]
    #rules = (Rule(LinkExtractor(allow=('/' + bandname + '-.*', )), callback='parse_price'))
    # item = ComparatorItem()
    tickets_list_xpath = './/*[@itemtype="http://schema.org/Event"]'
    item_fields = {
        'eventName' : './/*[@class="productionsEvent"]/text()',
        'eventLocation' : './/*[@class = "productionsVenue"]/span[@itemprop  = "name"]/text()',
        'ticketsLink' : './/a/@href',
        'eventDate' : './/*[@class = "productionsDate"]/text()',
        'eventCity' : './/*[@class = "productionsVenue"]/span[@itemprop  = "address"]/span[@itemprop  = "addressLocality"]/text()',
        'eventState' : './/*[@class = "productionsVenue"]/span[@itemprop  = "address"]/span[@itemprop  = "addressRegion"]/text()',
        'eventTime' : './/*[@class = "productionsTime"]/text()'
    }


    item_fields2 = {
            'ticketPrice' : '//*[@class="eventTickets lastChild"]/div/div/@data-origin-price]',


   }
    def parse_price(self, response):
            l.add_xpath('ticketPrice','.//*[@class =  "price"]/text()' )
            yield l.load_item()


        def parse(self, response):
            """

            """

        selector = HtmlXPathSelector(response)
        # iterate over tickets
        for ticket in selector.select(self.tickets_list_xpath):

            loader = XPathItemLoader(ComparatorItem(), selector=ticket)
            # define loader
            loader.default_input_processor = MapCompose(unicode.strip)
            loader.default_output_processor = Join()
            # iterate over fields and add xpaths to the loader
            for field, xpath in self.item_fields.iteritems():
                loader.add_xpath(field, xpath)
                yield Request(vs_url, self.parse_result, meta= {
                    'splash': {
                        'args':{
                            #set rendering arguments here
                            'html' :1

                            # 'url' is prefilled from request url
                        },
                        #optional parameters
                        function main(splash)
                            splash:autoload("https://ajax.googleapis.com/ajax/libs/jquery/2.1.3/jquery.min.js")
                            splash:go(vs_url)
                            splash:runjs("$('#some-button').click()")
                            return splash:html()
                        end                    
                        }
                    })
                for field, xpath in self.item_fields2.iteritems():
                    loader.add_xpath(field, xpath)

            yield loader.load_item()