用Python抓取Web应用程序

用Python抓取Web应用程序,python,web-scraping,Python,Web Scraping,到目前为止,我在网络抓取方面的大部分经验都相当简单明了。发送请求,下载HTML,并提取所需信息。目前,我感兴趣的是从Spotify Web应用程序中获取热门数据。这些数据无法通过他们的API访问,但在浏览不同的艺术家页面时可以看到 例如,可以在以下链接中找到全国最热门的曲目: 我的问题是,这些数据是如何在幕后生成的,是否有可能刮取这些数据?数据是动态生成的(下载HTML不会起作用),前端是FLEX,后端是C++/Python(根据)。 无论如何,如果你需要抓取JavaScript生成的内容,这将

到目前为止,我在网络抓取方面的大部分经验都相当简单明了。发送请求,下载HTML,并提取所需信息。目前,我感兴趣的是从Spotify Web应用程序中获取热门数据。这些数据无法通过他们的API访问,但在浏览不同的艺术家页面时可以看到

例如,可以在以下链接中找到全国最热门的曲目:


我的问题是,这些数据是如何在幕后生成的,是否有可能刮取这些数据?

数据是动态生成的(下载HTML不会起作用),前端是FLEX,后端是C++/Python(根据)。 无论如何,如果你需要抓取JavaScript生成的内容,这将是一件非常困难和痛苦的事情,因为这比抓取一个静态网站要复杂得多


我建议您使用(可通过JS API编写脚本的无头WebKit)或(自动浏览器测试/抓取)。

目前正在使用Firebug检查页面,我要查找的数据在任何HTML标记中都找不到。大多数动态生成的站点仍然允许用户查看标记之间的内容,而且此站点上没有显示任何内容似乎很奇怪。请尝试使用“选择元素以检查它”工具查找HTML标记。