Scrapy 刮屑机无输出

Scrapy 刮屑机无输出,scrapy,scrapy-spider,Scrapy,Scrapy Spider,我试图从URL列表中提取一些数据,例如提取所有团队名称。下面是我的蜘蛛,它正在运行的网址,但不采取任何数据 from scrapy.spider import Spider from scrapy.selector import HtmlXPathSelector from teams.items import TeamsItem class TeamsSpider(Spider): name = "teamcrawler" allowed_domains = ["basket

我试图从URL列表中提取一些数据,例如提取所有团队名称。下面是我的蜘蛛,它正在运行的网址,但不采取任何数据

from scrapy.spider import Spider
from scrapy.selector import HtmlXPathSelector
from teams.items import TeamsItem

class TeamsSpider(Spider):
    name = "teamcrawler"
    allowed_domains = ["basketball.realgm.com"]
    f = open("teamurls.txt")
    start_urls = [url.strip() for url in f.readlines()]

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        titles = hxs.select("/html/body/div[1]/div[2]/table/tbody/tr/td/div[2]/table/tbody/tr")
        items = []
        for title in titles:
            item = TeamsItem()
            item["URL"] = title.select("td[1]/a/@href").extract()
            item["Team"] = title.select("td[1]/a/text()").extract()
            items.append(item)
        print items
        return items

由于XPath中的
tbody
,您的XPath失败。浏览器(如Firefox和Chrome)会将该节点添加到表中,如果该节点不在页面源中

由于
tbody
节点可能在页面源代码中,也可能不在页面源代码中,因此可以使用scrapy shell对scrapy看到的内容执行交互式调试。用法:
scrapy shell'http://www.example.org“

相关问题: