Python 尝试使用scrapy抓取值
我正试图使用以下代码从网页中获取“每月工作总收入中位数”:Python 尝试使用scrapy抓取值,python,web-crawler,scrapy,Python,Web Crawler,Scrapy,我正试图使用以下代码从网页中获取“每月工作总收入中位数”: class crawl_income(scrapy.Spider): name = "salary" allowed_domains = ["stats.mom.gov.sg"] url = 'http://stats.mom.gov.sg/Pages/Income-Summary-Table.aspx' def parse_data(self, response): tab
class crawl_income(scrapy.Spider):
name = "salary"
allowed_domains = ["stats.mom.gov.sg"]
url = 'http://stats.mom.gov.sg/Pages/Income-Summary-Table.aspx'
def parse_data(self, response):
table_headers = response.xpath('//tr[@class="odd"]/td/td')
salary = []
for value in table_headers:
data = value.xpath('.//text()').extract()
salary.append(data)
print salary
process = CrawlerProcess()
process.crawl(crawl_income)
process.start()
但是,当我试图打印出我创建用于存储值的列表时,我没有看到任何值
我哪里出错了?首先,您的代码无法工作
url
应该是start\u url
以便让Scrapy知道从哪里开始爬网
parse_data
应该是parse
,因为没有任何信息,Scrapy不知道调用哪个方法,默认值是parse
。否则,当Scrapy对开始URL进行爬网并且parse
方法不存在时,也会出现NotImplementedError
当我运行下面的代码(包含所有提到的更改)并将response.body
打印到控制台时,我找不到任何带有class=“odd”
的元素,因此我猜站点内部有一些AJAX/XHR调用,这些调用随后提供了信息
编辑
再次查看代码后,我发现XPath有点奇怪。您使用tr[@class=“odd”]/td/td
但是一个td
元素没有另一个td
作为其子元素。如果要避免标题,请按照下面的代码更改提取。通过此更改,我将在薪资
列表中获得结果
import scrapy
from scrapy.crawler import CrawlerProcess
class crawl_income(scrapy.Spider):
name = "salary"
allowed_domains = ["stats.mom.gov.sg"]
start_urls = ['http://stats.mom.gov.sg/Pages/Income-Summary-Table.aspx']
def parse(self, response):
print response.body
table_headers = response.xpath('//tr[@class="odd"]//td')
salary = []
for value in table_headers[1:]:
data = value.xpath('./text()').extract()
salary.append(data)
print salary
process = CrawlerProcess()
process.crawl(crawl_income)
process.start()
不管是开始url还是url,也不管是解析还是解析数据,它都适用于我的另一个爬虫程序。好的,我再次查看了代码和站点,并更新了示例。但是对我来说,它只适用于
开始\u URL
。您是否正确缩进了代码,使parse方法位于类的主体中,而不是作为全局方法?谢谢!它工作得很好!你知道我怎么能同时做多个爬虫吗?如果可以的话,我希望你能接受这个答案。对于多个爬虫,只需使用爬行器类多次调用process.crawl
。有什么例子吗?在一个类中,我想运行多个spider。