Regex 在HTML中查找特定url_Regex_Parsing_Beautifulsoup_Urllib2_Python 2.x

Regex 在HTML中查找特定url

regex parsing

Regex 在HTML中查找特定url,regex,parsing,beautifulsoup,urllib2,python-2.x,Regex,Parsing,Beautifulsoup,Urllib2,Python 2.x,我是新会员，很抱歉我的英语不是我的第一语言。我将制作一个python程序，从html页面提取特定的url(http://www.kernel.org/pub/linux/kernel/v3.0/). 我可以在shell上打印关于该页面的所有链接，但我不知道如何提取特定的url，例如linux-3.6.7.tar.bz2。我该怎么做我想问你另一个问题：我希望用户选择要在你的电脑上下载的内核，而不是指定内核，例如3.2、3.3、3.6等。我如何做到这一点？也许是正则表达式 Ps：我导入了url

我是新会员，很抱歉我的英语不是我的第一语言。我将制作一个python程序，从html页面提取特定的url(http://www.kernel.org/pub/linux/kernel/v3.0/). 我可以在shell上打印关于该页面的所有链接，但我不知道如何提取特定的url，例如linux-3.6.7.tar.bz2。我该怎么做

我想问你另一个问题：我希望用户选择要在你的电脑上下载的内核，而不是指定内核，例如3.2、3.3、3.6等。我如何做到这一点？也许是正则表达式

Ps：我导入了urllib2、HTMLPasser、BeautifulSoup和Re

from urllib2 import Request, urlopen
from BeautifulSoup import BeautifulSoup
req = Request('http://www.kernel.org/pub/linux/kernel/v3.0/')
response = urlopen(req)
content = response.readlines()
soup = BeautifulSoup(''.join(content))
for link in soup.findAll('a', href=True):
    if ('3.6.7.tar.gz' in link.string):
        print link

用那个

>>> from urllib2 import Request, urlopen
>>> from BeautifulSoup import BeautifulSoup
>>> req = Request('http://www.kernel.org/pub/linux/kernel/v3.0/')
>>> response = urlopen(req)
>>> content = response.readlines()
>>> soup = BeautifulSoup(''.join(content))
>>> for link in soup.findAll('a', href=True):
...     if ('3.6.7.tar.gz' in link.string):
...         print link
...
<a href="linux-3.6.7.tar.gz">linux-3.6.7.tar.gz</a>
>>>

>>来自urllib2导入请求，urlopen
>>>从BeautifulSoup导入BeautifulSoup
>>>req=请求（'http://www.kernel.org/pub/linux/kernel/v3.0/')
>>>响应=urlopen（请求）
>>>content=response.readlines（）
>>>汤=BeautifulSoup（“”.join（内容））
>>>对于soup.findAll（'a'，href=True）中的链接：
...     如果link.string中的（'3.6.7.tar.gz'）：
...         打印链接
...
>>>

如果您想自定义用户输入搜索，请使用python函数…

请参考此链接，谢谢您！我明白了：）