python urllib2随机网站超链接访问
我想让python脚本,将随机访问一些网站上的超链接每1秒 从验证url开始:python urllib2随机网站超链接访问,python,hyperlink,urllib2,Python,Hyperlink,Urllib2,我想让python脚本,将随机访问一些网站上的超链接每1秒 从验证url开始: def valid_url(url): try: urllib2.urlopen(url) return True except Exception, e: return False print valid_url('www.python.org') 我可以使用re获取超链接 这将有助于: print valid_url('http://www.py
def valid_url(url):
try:
urllib2.urlopen(url)
return True
except Exception, e:
return False
print valid_url('www.python.org')
我可以使用re获取超链接
这将有助于:
print valid_url('http://www.python.org')
你可以看看如何处理它
如果要访问随机超链接,必须解析页面以收集URL,请使用每秒随机选择一次使用time.sleep1的循环,并使用urlopen进行访问
如果你能提供更多的信息,我将能更好地帮助你。所以。。这是我想要的脚本:
import urllib2
import re
from random import randrange
import time
url = 'http://some web site...'
page = urllib2.urlopen(url)
page = page.read()
links = re.findall(r"<a.*?\s*href=\"(.*?)\".*?>(.*?)</a>", page)
while True:
i = randrange(len(links))
if not links[i][0].startswith('http'):
n = urllib2.urlopen(url + links[i][0])
open_url = n.read
close_url = n.close
# n.geturl()
print 'Opened ' + url + links[i][0]
time.sleep(5)
到目前为止,您得到了什么?请提供更多信息您到目前为止尝试了什么从验证url:def valid_urlurl:try:urllib2.urlopenurl返回True,异常除外,e:return False print valid_url'www.python.org'编辑问题并添加到那里..谢谢。我对stuckoverflow有点陌生。。。
import urllib2
import re
from random import randrange
import time
url = 'http://some web site...'
page = urllib2.urlopen(url)
page = page.read()
links = re.findall(r"<a.*?\s*href=\"(.*?)\".*?>(.*?)</a>", page)
while True:
i = randrange(len(links))
if not links[i][0].startswith('http'):
n = urllib2.urlopen(url + links[i][0])
open_url = n.read
close_url = n.close
# n.geturl()
print 'Opened ' + url + links[i][0]
time.sleep(5)