Regex 在HTML中查找特定url

Regex 在HTML中查找特定url,regex,parsing,beautifulsoup,urllib2,python-2.x,Regex,Parsing,Beautifulsoup,Urllib2,Python 2.x,我是新会员,很抱歉我的英语不是我的第一语言。 我将制作一个python程序,从html页面提取特定的url(http://www.kernel.org/pub/linux/kernel/v3.0/). 我可以在shell上打印关于该页面的所有链接,但我不知道如何提取特定的url,例如linux-3.6.7.tar.bz2。我该怎么做 我想问你另一个问题:我希望用户选择要在你的电脑上下载的内核,而不是指定内核,例如3.2、3.3、3.6等。我如何做到这一点? 也许是正则表达式 Ps:我导入了url

我是新会员,很抱歉我的英语不是我的第一语言。 我将制作一个python程序,从html页面提取特定的url(http://www.kernel.org/pub/linux/kernel/v3.0/). 我可以在shell上打印关于该页面的所有链接,但我不知道如何提取特定的url,例如linux-3.6.7.tar.bz2。我该怎么做

我想问你另一个问题:我希望用户选择要在你的电脑上下载的内核,而不是指定内核,例如3.2、3.3、3.6等。我如何做到这一点? 也许是正则表达式

Ps:我导入了urllib2、HTMLPasser、BeautifulSoup和Re

from urllib2 import Request, urlopen
from BeautifulSoup import BeautifulSoup
req = Request('http://www.kernel.org/pub/linux/kernel/v3.0/')
response = urlopen(req)
content = response.readlines()
soup = BeautifulSoup(''.join(content))
for link in soup.findAll('a', href=True):
    if ('3.6.7.tar.gz' in link.string):
        print link
用那个

>>> from urllib2 import Request, urlopen
>>> from BeautifulSoup import BeautifulSoup
>>> req = Request('http://www.kernel.org/pub/linux/kernel/v3.0/')
>>> response = urlopen(req)
>>> content = response.readlines()
>>> soup = BeautifulSoup(''.join(content))
>>> for link in soup.findAll('a', href=True):
...     if ('3.6.7.tar.gz' in link.string):
...         print link
...
<a href="linux-3.6.7.tar.gz">linux-3.6.7.tar.gz</a>
>>>
>>来自urllib2导入请求,urlopen
>>>从BeautifulSoup导入BeautifulSoup
>>>req=请求('http://www.kernel.org/pub/linux/kernel/v3.0/')
>>>响应=urlopen(请求)
>>>content=response.readlines()
>>>汤=BeautifulSoup(“”.join(内容))
>>>对于soup.findAll('a',href=True)中的链接:
...     如果link.string中的('3.6.7.tar.gz'):
...         打印链接
...
>>>

如果您想自定义用户输入搜索,请使用python函数…

请参考此链接,谢谢您!我明白了:)