Python 第页的“问题”部分

Python 第页的“问题”部分,python,scrapy,html-lists,screen-scraping,Python,Scrapy,Html Lists,Screen Scraping,设置 我正在用scrapy刮房屋广告 我成功地收集了每个广告的大部分房屋特征,然后用熊猫对它们进行分析 问题 我似乎无法在广告页面上刮取某个ul。该问题涉及任何房屋广告页面上的“主要特征”和“附加内容”部分:例如 当我尝试刮取元素时,我收到一个空白返回。 尝试 我尝试了以下方法来获取“额外的” response.css("section.divFeatures") # empty response.css("div.detail-section-content::text", # giv

设置

我正在用scrapy刮房屋广告

我成功地收集了每个广告的大部分房屋特征,然后用熊猫对它们进行分析


问题

我似乎无法在广告页面上刮取某个
ul
。该问题涉及任何房屋广告页面上的“主要特征”和“附加内容”部分:例如

当我尝试刮取元素时,我收到一个空白返回。
尝试

我尝试了以下方法来获取“额外的”

response.css("section.divFeatures") # empty 

response.css("div.detail-section-content::text", # gives me the property location (strange)
          ).extract() 

response.css("#divFeatures").extract() # empty
名单还在继续


我做错了什么,如何成功获取元素?

您可以直接查询@Casper提到的页面……或者您可以使用运行javascript的引擎,像普通的webbrowser一样为您编辑DOM,并在编辑后获取html


Selenium+ChromeDriver(+XVFB,如果您想运行headless)或phantomjs等。它们将运行网页上的所有javascript,并且具有与您在chrome中打开inspect面板时所看到的完全相同的结构

这是因为这些数据是通过带有URLCasper的javascript加载的!就我的理解而言,你评论中的url是可刮的吗?如果是这样的话,你是从网页的代码中找到它的吗?是的,这个url是可以刮取的。我不确定是否有更好的方法来查看数据来自何处,但我只是在Chrome中打开inspect窗口,然后使用Network选项卡查看加载了哪些数据。最终你会发现一个像这样的页面包含你需要的信息。