Python 2.7 使用Python连接URL';s urllib2

Python 2.7 使用Python连接URL';s urllib2,python-2.7,urllib2,Python 2.7,Urllib2,我正在使用urllib2抓取一些股票信息 我的一些代码如下 cap_url = "http://wisefn.stock.daum.net/company/c1010001.aspx?cmp_cd=%s" % code cap_req = urllib2.Request(cap_url) cap_data = urllib2.urlopen(cap_req).read() ~ ~ ~ depr_url = "http://wisefn.st

我正在使用urllib2抓取一些股票信息

我的一些代码如下

    cap_url = "http://wisefn.stock.daum.net/company/c1010001.aspx?cmp_cd=%s" % code
    cap_req = urllib2.Request(cap_url)
    cap_data = urllib2.urlopen(cap_req).read()
    ~
    ~
    ~
    depr_url = "http://wisefn.stock.daum.net/company/cF3002.aspx?cmp_cd=%s&frq=Q&rpt=ISM&finGubun=MAIN" % code
    depr_req = urllib2.Request(depr_url)
    depr_data = urllib2.urlopen(depr_req).read()
    ~
    ~
    ~
    transaction_url = "http://www.shinhaninvest.com/goodicyber/mk/1206.jsp?code=%s" % code
    transaction_data = urllib2.urlopen(transaction_url).read()
    soup = BeautifulSoup(transaction_data, fromEncoding="utf-8")
如您所知,%s是股票代码。在给定股票代码的情况下,我将删除所有股票信息。股票代码总数超过1600。然后我用xlwt将收集到的信息写入Excel

但是,我无法连接到某个url,也无法手动键入该url获取我可以连接的url的信息


有什么问题吗?如何加快抓取页面的速度?

首先,我会查看网站的robots.txt文件。它很可能禁止本机python用户代理。因此,您可以考虑更改URLILB2的用户代理。
第二网站内容可能由JavaScript生成,如果是,urllib2无法对其进行评估。为此,您可以使用Selenium驱动程序、PyQt框架或类似工具。

当您超出限制时,您的联系人很可能会关闭您的连接,不管他们是什么。我相信你不是第一个尝试这个的人……谢谢你的解释。现在我考虑代理服务器超过连接限制。