Python 第页的“问题”部分_Python_Scrapy_Html Lists_Screen Scraping

Python 第页的“问题”部分

python scrapy

Python 第页的“问题”部分,python,scrapy,html-lists,screen-scraping,Python,Scrapy,Html Lists,Screen Scraping,设置我正在用scrapy刮房屋广告我成功地收集了每个广告的大部分房屋特征，然后用熊猫对它们进行分析问题我似乎无法在广告页面上刮取某个ul。该问题涉及任何房屋广告页面上的“主要特征”和“附加内容”部分：例如当我尝试刮取元素时，我收到一个空白返回。尝试我尝试了以下方法来获取“额外的” response.css("section.divFeatures") # empty response.css("div.detail-section-content::text", # giv

设置

我正在用scrapy刮房屋广告

我成功地收集了每个广告的大部分房屋特征，然后用熊猫对它们进行分析

问题

我似乎无法在广告页面上刮取某个

ul

。该问题涉及任何房屋广告页面上的“主要特征”和“附加内容”部分：例如

当我尝试刮取元素时，我收到一个空白返回。

尝试

我尝试了以下方法来获取“额外的”

response.css("section.divFeatures") # empty 

response.css("div.detail-section-content::text", # gives me the property location (strange)
          ).extract() 

response.css("#divFeatures").extract() # empty

名单还在继续

我做错了什么，如何成功获取元素？

您可以直接查询@Casper提到的页面……或者您可以使用运行javascript的引擎，像普通的webbrowser一样为您编辑DOM，并在编辑后获取html

Selenium+ChromeDriver（+XVFB，如果您想运行headless）或phantomjs等。它们将运行网页上的所有javascript，并且具有与您在chrome中打开inspect面板时所看到的完全相同的结构

这是因为这些数据是通过带有URLCasper的javascript加载的！就我的理解而言，你评论中的url是可刮的吗？如果是这样的话，你是从网页的代码中找到它的吗？是的，这个url是可以刮取的。我不确定是否有更好的方法来查看数据来自何处，但我只是在Chrome中打开inspect窗口，然后使用Network选项卡查看加载了哪些数据。最终你会发现一个像这样的页面包含你需要的信息。