Scrapy 刮屑机无输出_Scrapy_Scrapy Spider

Scrapy 刮屑机无输出

scrapy

Scrapy 刮屑机无输出,scrapy,scrapy-spider,Scrapy,Scrapy Spider,我试图从URL列表中提取一些数据，例如提取所有团队名称。下面是我的蜘蛛，它正在运行的网址，但不采取任何数据 from scrapy.spider import Spider from scrapy.selector import HtmlXPathSelector from teams.items import TeamsItem class TeamsSpider(Spider): name = "teamcrawler" allowed_domains = ["basket

我试图从URL列表中提取一些数据，例如提取所有团队名称。下面是我的蜘蛛，它正在运行的网址，但不采取任何数据

from scrapy.spider import Spider
from scrapy.selector import HtmlXPathSelector
from teams.items import TeamsItem

class TeamsSpider(Spider):
    name = "teamcrawler"
    allowed_domains = ["basketball.realgm.com"]
    f = open("teamurls.txt")
    start_urls = [url.strip() for url in f.readlines()]

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        titles = hxs.select("/html/body/div[1]/div[2]/table/tbody/tr/td/div[2]/table/tbody/tr")
        items = []
        for title in titles:
            item = TeamsItem()
            item["URL"] = title.select("td[1]/a/@href").extract()
            item["Team"] = title.select("td[1]/a/text()").extract()
            items.append(item)
        print items
        return items

由于XPath中的

tbody

，您的XPath失败。浏览器（如Firefox和Chrome）会将该节点添加到表中，如果该节点不在页面源中

由于

tbody

节点可能在页面源代码中，也可能不在页面源代码中，因此可以使用scrapy shell对scrapy看到的内容执行交互式调试。用法：

scrapy shell'http://www.example.org“