Scrapy 刮屑机无输出
我试图从URL列表中提取一些数据,例如提取所有团队名称。下面是我的蜘蛛,它正在运行的网址,但不采取任何数据Scrapy 刮屑机无输出,scrapy,scrapy-spider,Scrapy,Scrapy Spider,我试图从URL列表中提取一些数据,例如提取所有团队名称。下面是我的蜘蛛,它正在运行的网址,但不采取任何数据 from scrapy.spider import Spider from scrapy.selector import HtmlXPathSelector from teams.items import TeamsItem class TeamsSpider(Spider): name = "teamcrawler" allowed_domains = ["basket
from scrapy.spider import Spider
from scrapy.selector import HtmlXPathSelector
from teams.items import TeamsItem
class TeamsSpider(Spider):
name = "teamcrawler"
allowed_domains = ["basketball.realgm.com"]
f = open("teamurls.txt")
start_urls = [url.strip() for url in f.readlines()]
def parse(self, response):
hxs = HtmlXPathSelector(response)
titles = hxs.select("/html/body/div[1]/div[2]/table/tbody/tr/td/div[2]/table/tbody/tr")
items = []
for title in titles:
item = TeamsItem()
item["URL"] = title.select("td[1]/a/@href").extract()
item["Team"] = title.select("td[1]/a/text()").extract()
items.append(item)
print items
return items
由于XPath中的
tbody
,您的XPath失败。浏览器(如Firefox和Chrome)会将该节点添加到表中,如果该节点不在页面源中
由于tbody
节点可能在页面源代码中,也可能不在页面源代码中,因此可以使用scrapy shell对scrapy看到的内容执行交互式调试。用法:scrapy shell'http://www.example.org“
相关问题: