python urllib2随机网站超链接访问_Python_Hyperlink_Urllib2

python urllib2随机网站超链接访问

python hyperlink

python urllib2随机网站超链接访问,python,hyperlink,urllib2,Python,Hyperlink,Urllib2,我想让python脚本，将随机访问一些网站上的超链接每1秒从验证url开始： def valid_url(url): try: urllib2.urlopen(url) return True except Exception, e: return False print valid_url('www.python.org') 我可以使用re获取超链接这将有助于： print valid_url('http://www.py

我想让python脚本，将随机访问一些网站上的超链接每1秒

从验证url开始：

def valid_url(url):
    try:
        urllib2.urlopen(url)
        return True
    except Exception, e:
        return False

print valid_url('www.python.org')

我可以使用re获取超链接这将有助于：

print valid_url('http://www.python.org')

你可以看看如何处理它

如果要访问随机超链接，必须解析页面以收集URL，请使用每秒随机选择一次使用time.sleep1的循环，并使用urlopen进行访问

如果你能提供更多的信息，我将能更好地帮助你。

所以。。这是我想要的脚本：

import urllib2
import re
from random import randrange
import time

url = 'http://some web site...'
page = urllib2.urlopen(url)
page = page.read()
links = re.findall(r"<a.*?\s*href=\"(.*?)\".*?>(.*?)</a>", page)

while True:
    i = randrange(len(links))
    if not links[i][0].startswith('http'):
        n = urllib2.urlopen(url + links[i][0])
        open_url = n.read
        close_url = n.close
        # n.geturl()
        print 'Opened ' + url + links[i][0]
        time.sleep(5)

到目前为止，您得到了什么？请提供更多信息您到目前为止尝试了什么从验证url:def valid_urlurl:try:urllib2.urlopenurl返回True，异常除外，e:return False print valid_url'www.python.org'编辑问题并添加到那里..谢谢。我对stuckoverflow有点陌生。。。

import urllib2
import re
from random import randrange
import time

url = 'http://some web site...'
page = urllib2.urlopen(url)
page = page.read()
links = re.findall(r"<a.*?\s*href=\"(.*?)\".*?>(.*?)</a>", page)

while True:
    i = randrange(len(links))
    if not links[i][0].startswith('http'):
        n = urllib2.urlopen(url + links[i][0])
        open_url = n.read
        close_url = n.close
        # n.geturl()
        print 'Opened ' + url + links[i][0]
        time.sleep(5)