Python 如何刮网页
我一直在为MichaelKors.com使用scrapy。现在我使用window.initial_state中的SKU来获取所有属性和相关信息。但是,有些网页我无法浏览,例如: 它没有SKU,所以我尝试像这样直接获取它:Python 如何刮网页,python,scrapy,pycharm,Python,Scrapy,Pycharm,我一直在为MichaelKors.com使用scrapy。现在我使用window.initial_state中的SKU来获取所有属性和相关信息。但是,有些网页我无法浏览,例如: 它没有SKU,所以我尝试像这样直接获取它: desc = response.xpath('//p[@class="look-description-desktop hide-on-mobile"]/text()').getall() 然而,它却一无所获。 如果您想获取特定信息,您还需要研究哪些其他属性或方面?我是一个新
desc = response.xpath('//p[@class="look-description-desktop hide-on-mobile"]/text()').getall()
然而,它却一无所获。
如果您想获取特定信息,您还需要研究哪些其他属性或方面?我是一个新手,所以我不知道该从哪里开始。您在问题中编写的xpath为您提供了描述(至少在呈现页面时是这样)。要检查scrapy如何查看网页,可以在命令行中执行以下操作:
scrapy shell 'https://www.michaelkors.com/zip-hoodie-embellished-skirt-manhattan-crossbody-goldie-moto-boot/_/L-MSTR101179'
view(response)
您将看到,您可以找到如下描述:
response.xpath('//*[@property="og:description"]/@content').extract_first()
请发布您的代码,并描述您到目前为止所做的尝试。我意识到它偏离了主题,但如何获得在网站上显示的产品图像呢。如何获取它们?尝试使用view(response)打开html页面并检查从何处找到图像URL,然后编写xpath表达式获取它们。