Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/284.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/git/24.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何刮网页_Python_Scrapy_Pycharm - Fatal编程技术网

Python 如何刮网页

Python 如何刮网页,python,scrapy,pycharm,Python,Scrapy,Pycharm,我一直在为MichaelKors.com使用scrapy。现在我使用window.initial_state中的SKU来获取所有属性和相关信息。但是,有些网页我无法浏览,例如: 它没有SKU,所以我尝试像这样直接获取它: desc = response.xpath('//p[@class="look-description-desktop hide-on-mobile"]/text()').getall() 然而,它却一无所获。 如果您想获取特定信息,您还需要研究哪些其他属性或方面?我是一个新

我一直在为MichaelKors.com使用scrapy。现在我使用window.initial_state中的SKU来获取所有属性和相关信息。但是,有些网页我无法浏览,例如: 它没有SKU,所以我尝试像这样直接获取它:

desc = response.xpath('//p[@class="look-description-desktop hide-on-mobile"]/text()').getall()
然而,它却一无所获。
如果您想获取特定信息,您还需要研究哪些其他属性或方面?我是一个新手,所以我不知道该从哪里开始。

您在问题中编写的xpath为您提供了描述(至少在呈现页面时是这样)。要检查scrapy如何查看网页,可以在命令行中执行以下操作:

scrapy shell 'https://www.michaelkors.com/zip-hoodie-embellished-skirt-manhattan-crossbody-goldie-moto-boot/_/L-MSTR101179'

view(response)
您将看到,您可以找到如下描述:

response.xpath('//*[@property="og:description"]/@content').extract_first()

请发布您的代码,并描述您到目前为止所做的尝试。我意识到它偏离了主题,但如何获得在网站上显示的产品图像呢。如何获取它们?尝试使用view(response)打开html页面并检查从何处找到图像URL,然后编写xpath表达式获取它们。