Python Scrapy-无法获取表中的值
这是 这是我的密码Python Scrapy-无法获取表中的值,python,scrapy,Python,Scrapy,这是 这是我的密码 import scrapy class get_taiex(scrapy.Spider): name='get_taiex' def start_requests(self): url ='https://www.twse.com.tw/indicesReport/MI_5MINS_HIST?response=html&date=20191101' yield scrapy.Request(url, callback=
import scrapy
class get_taiex(scrapy.Spider):
name='get_taiex'
def start_requests(self):
url ='https://www.twse.com.tw/indicesReport/MI_5MINS_HIST?response=html&date=20191101'
yield scrapy.Request(url, callback=self.parse)
def parse(self, response):
for row in response.xpath('//tbody/tr'):
yield {
'date' : row.xpath('td[1]/text()').extract_first(),
'open' : row.xpath('td[2]/text()').extract_first(),
'high' : row.xpath('td[3]/text()').extract_first(),
'low' : row.xpath('td[4]/text()').extract_first(),
'close' : row.xpath('td[5]/text()').extract_first()
}
我不知道为什么它不起作用
它可以很好地与
区别只是一个div标签
我将其用于json输出
scrapy crawl get_taiex-o output.json-t json
谢谢。您可能正在使用新版本的scrapy,您得到的
被robots.txt禁止,因此您得到的响应为空,因此您需要更改设置.py
:
ROBOTSTXT\u obe=False
您可能使用新版本的scrapy,您得到的被robots.txt禁止,因此您得到的响应为空,因此您需要更改设置.py
:
ROBOTSTXT\u obe=False
有必要使用scrapy吗?…我的意思是…我可以帮你使用beautifulsoup@GiovaniSalazar是的,我刚刚为多个爬虫启动了一个scrapy项目,它是否适合在scrapy项目中使用Beauty soup?这取决于什么样的数据(web)你在爬行吗?有了这个网站…有了漂亮的灵魂就够了吗?你能添加一个你得到的结果吗?@Tino它输出一个空的json文件吗?需要使用scrapy吗?…我的意思是…我可以帮你使用漂亮的灵魂soup@GiovaniSalazar是的,我刚开始了一个针对多个爬虫的小项目,它是否适合在scrapy项目中使用beautiful soup?这取决于您正在爬行的数据类型(web)…使用此web…使用beautiful soup是否足够?您是否可以添加一个您得到的结果?@Tino它输出一个空json文件