如何编写python脚本来搜索网站html中的匹配链接_Python_Scrape

如何编写python脚本来搜索网站html中的匹配链接

python

如何编写python脚本来搜索网站html中的匹配链接,python,scrape,Python,Scrape,我对python不太熟悉，必须编写一个脚本来执行许多函数。基本上，我仍然需要的模块是如何检查网站代码以匹配预先提供的链接。通常，您使用（HTMLIB等）在Python中编程web。你也可以使用，等等。然后，为了处理HTML和获取链接，你需要使用解析器，比如。匹配链接什么？他们的属性？链接显示文本？也许是这样的： from BeautifulSoup import BeautifulSoup, SoupStrainer import re import urllib2 doc = urlli

我对python不太熟悉，必须编写一个脚本来执行许多函数。

基本上，我仍然需要的模块是如何检查网站代码以匹配预先提供的链接。

通常，您使用（HTMLIB等）在Python中编程web。你也可以使用，等等。然后，为了处理HTML和获取链接，你需要使用解析器，比如。

匹配链接什么？他们的属性？链接显示文本？也许是这样的：

from BeautifulSoup import BeautifulSoup, SoupStrainer
import re
import urllib2

doc = urllib2.urlopen("http://somesite.com").read()
links = SoupStrainer('a', href=re.compile(r'^test'))
soup = [str(elm) for elm in BeautifulSoup(doc, parseOnlyThese=links)]
for elm in soup:
    print elm

这将获取

somesite.com

的HTML内容，然后使用BeautifulSoup对其进行解析，只查找HREF属性以“test”开头的链接。然后，它构建这些链接的列表并打印出来

您可以使用。

试试scrapy，这是最全面的web提取框架