Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/365.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
python urllib2随机网站超链接访问_Python_Hyperlink_Urllib2 - Fatal编程技术网

python urllib2随机网站超链接访问

python urllib2随机网站超链接访问,python,hyperlink,urllib2,Python,Hyperlink,Urllib2,我想让python脚本,将随机访问一些网站上的超链接每1秒 从验证url开始: def valid_url(url): try: urllib2.urlopen(url) return True except Exception, e: return False print valid_url('www.python.org') 我可以使用re获取超链接 这将有助于: print valid_url('http://www.py

我想让python脚本,将随机访问一些网站上的超链接每1秒

从验证url开始:

def valid_url(url):
    try:
        urllib2.urlopen(url)
        return True
    except Exception, e:
        return False

print valid_url('www.python.org')
我可以使用re获取超链接 这将有助于:

print valid_url('http://www.python.org')
你可以看看如何处理它

如果要访问随机超链接,必须解析页面以收集URL,请使用每秒随机选择一次使用time.sleep1的循环,并使用urlopen进行访问


如果你能提供更多的信息,我将能更好地帮助你。

所以。。这是我想要的脚本:

import urllib2
import re
from random import randrange
import time

url = 'http://some web site...'
page = urllib2.urlopen(url)
page = page.read()
links = re.findall(r"<a.*?\s*href=\"(.*?)\".*?>(.*?)</a>", page)

while True:
    i = randrange(len(links))
    if not links[i][0].startswith('http'):
        n = urllib2.urlopen(url + links[i][0])
        open_url = n.read
        close_url = n.close
        # n.geturl()
        print 'Opened ' + url + links[i][0]
        time.sleep(5)

到目前为止,您得到了什么?请提供更多信息您到目前为止尝试了什么从验证url:def valid_urlurl:try:urllib2.urlopenurl返回True,异常除外,e:return False print valid_url'www.python.org'编辑问题并添加到那里..谢谢。我对stuckoverflow有点陌生。。。
import urllib2
import re
from random import randrange
import time

url = 'http://some web site...'
page = urllib2.urlopen(url)
page = page.read()
links = re.findall(r"<a.*?\s*href=\"(.*?)\".*?>(.*?)</a>", page)

while True:
    i = randrange(len(links))
    if not links[i][0].startswith('http'):
        n = urllib2.urlopen(url + links[i][0])
        open_url = n.read
        close_url = n.close
        # n.geturl()
        print 'Opened ' + url + links[i][0]
        time.sleep(5)