Python 如何从动态URL抓取和下载文件?
我有自己的python爬虫程序(基于Udacity.com上的CS101),试图从download.cnet.com下载文件(安装程序),当爬虫程序正在爬虫时,我希望它能像这样工作:Python 如何从动态URL抓取和下载文件?,python,download,web-crawler,Python,Download,Web Crawler,我有自己的python爬虫程序(基于Udacity.com上的CS101),试图从download.cnet.com下载文件(安装程序),当爬虫程序正在爬虫时,我希望它能像这样工作: 说明该链接是否为下载链接: response=urlib2.urlopen(“”) content\u type=response.info().get('content-type') 打印内容类型 如果爬虫获得: application/octet-stream 爬虫程序将从链接下载安装程序 问题是down
application/octet-stream
因此,我已经确认download.com正在使用动态链接,但是我应该怎么做才能让我的爬虫找到这个链接,以便它可以从download.com下载安装程序?正如您所说,很可能您在页面中获得JavaScript或AJAX,从而“真实”地激活下载浏览器,而你的努力只是简单地自动化它
下面是关于同一问题的另一个讨论:。正如上面提到的,一种选择是使用Python的替代品,如PhantomJS或浏览器自动化框架(带有可选的“远程控制”),如Selenium。我同意。作为Selenium的一部分,我将使用无头浏览器爬虫程序,如PhantomJS或HTMLUnitDriver。