Python 如何刮取无限滚动生成的数据?

Python 如何刮取无限滚动生成的数据?,python,scrapy,Python,Scrapy,如何用scrapy从列表中删除产品 我尝试了浏览器发送的ajax请求url: https://www.amazon.cn/gp/profile/A34PAP6LGJIN6N/more?next_batch_params%5Breview_offset%5D=10&_=1469081762384 但是它返回404您需要复制您在请求中看到的头 如果检查响应标题,您可以看到: 从这里,您需要更新scrapy.Request.headers属性。这些值很少。在大多数情况下,您可以跳过Cook

如何用scrapy从列表中删除产品

我尝试了浏览器发送的ajax请求url:

https://www.amazon.cn/gp/profile/A34PAP6LGJIN6N/more?next_batch_params%5Breview_offset%5D=10&_=1469081762384

但是它返回
404

您需要复制您在请求中看到的头

如果检查响应标题,您可以看到:

从这里,您需要更新
scrapy.Request.headers
属性。这些值很少。在大多数情况下,您可以跳过Cookie,因为scrapy自己管理这个Cookie,通常对于像这样的ajax请求,它是没有意义的

在本例中,我通过仅复制
X-request-With
header成功获得了响应。此标头用于指示正在发生ajax请求

您可以实时测试和设计此功能:

scrapy shell <url>
# gives you 403
request.headers.update({'X-Requested-With': 'XMLHttpRequest'})
request.headers.update({'User-Agent': <some user agent>})
fetch(request)
# now the request is redownloaded and it's 200!
scrapy外壳
#给你403
update({'X-Requested-With':'XMLHttpRequest'})
request.headers.update({'User-Agent':})
提取(请求)
#现在请求被重新下载,它是200!

您需要复制在请求中看到的标题

如果检查响应标题,您可以看到:

从这里,您需要更新
scrapy.Request.headers
属性。这些值很少。在大多数情况下,您可以跳过Cookie,因为scrapy自己管理这个Cookie,通常对于像这样的ajax请求,它是没有意义的

在本例中,我通过仅复制
X-request-With
header成功获得了响应。此标头用于指示正在发生ajax请求

您可以实时测试和设计此功能:

scrapy shell <url>
# gives you 403
request.headers.update({'X-Requested-With': 'XMLHttpRequest'})
request.headers.update({'User-Agent': <some user agent>})
fetch(request)
# now the request is redownloaded and it's 200!
scrapy外壳
#给你403
update({'X-Requested-With':'XMLHttpRequest'})
request.headers.update({'User-Agent':})
提取(请求)
#现在请求被重新下载,它是200!