Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/325.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 下载带有mechanize的文件_Python_Mechanize - Fatal编程技术网

Python 下载带有mechanize的文件

Python 下载带有mechanize的文件,python,mechanize,Python,Mechanize,我有一个已打开页面的浏览器实例。我想下载并保存下所有的链接(它们是PDF)。 有人知道怎么做吗 Thx可能不是您想要的答案,但我已经将lxml和请求库一起用于自动锚抓取: 相关lxml示例(用请求替换urllib) 以及图书馆网页 它不像mechanize那样紧凑,但确实提供了更多的控制。嗨,大卫,我现在要尝试一下,作为BeautifulSoup的忠实粉丝,我要提醒大家,图书馆不再积极开发。大多数熟悉BS的人都建议我过渡到lxmlI,我认为BeautifulSoup仍在积极开发中 import

我有一个已打开页面的浏览器实例。我想下载并保存下所有的链接(它们是PDF)。 有人知道怎么做吗


Thx可能不是您想要的答案,但我已经将lxml和请求库一起用于自动锚抓取:

相关lxml示例(用请求替换urllib)

以及图书馆网页


它不像mechanize那样紧凑,但确实提供了更多的控制。

嗨,大卫,我现在要尝试一下,作为BeautifulSoup的忠实粉丝,我要提醒大家,图书馆不再积极开发。大多数熟悉BS的人都建议我过渡到lxmlI,我认为BeautifulSoup仍在积极开发中
import urllib, urllib2,cookielib, re
#http://www.crummy.com/software/BeautifulSoup/ - required
from BeautifulSoup import BeautifulSoup

HOST = 'https://www.adobe.com/'

cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))

req = opener.open( HOST + 'pdf' )
responce = req.read()

soup = BeautifulSoup( responce )
pdfs = soup.findAll(name = 'a', attrs = { 'href': re.compile('\.pdf') })
for pdf in pdfs:
    if 'https://' not in pdf['href']:
        url = HOST + pdf['href']
    else:
        url = pdf['href']
    try:
        #http://docs.python.org/library/urllib.html#urllib.urlretrieve
        urllib.urlretrieve(url)
    except Exception, e:
        print 'cannot obtain url %s' % ( url, )
        print 'from href %s' % ( pdf['href'], )
        print e
    else:
        print 'downloaded file'
        print url