如何编写python脚本来搜索网站html中的匹配链接
我对python不太熟悉,必须编写一个脚本来执行许多函数。如何编写python脚本来搜索网站html中的匹配链接,python,scrape,Python,Scrape,我对python不太熟悉,必须编写一个脚本来执行许多函数。 基本上,我仍然需要的模块是如何检查网站代码以匹配预先提供的链接。通常,您使用(HTMLIB等)在Python中编程web。你也可以使用,等等。然后,为了处理HTML和获取链接,你需要使用解析器,比如。匹配链接什么?他们的属性?链接显示文本? 也许是这样的: from BeautifulSoup import BeautifulSoup, SoupStrainer import re import urllib2 doc = urlli
基本上,我仍然需要的模块是如何检查网站代码以匹配预先提供的链接。通常,您使用(HTMLIB等)在Python中编程web。你也可以使用,等等。然后,为了处理HTML和获取链接,你需要使用解析器,比如。匹配链接什么?他们的属性?链接显示文本? 也许是这样的:
from BeautifulSoup import BeautifulSoup, SoupStrainer
import re
import urllib2
doc = urllib2.urlopen("http://somesite.com").read()
links = SoupStrainer('a', href=re.compile(r'^test'))
soup = [str(elm) for elm in BeautifulSoup(doc, parseOnlyThese=links)]
for elm in soup:
print elm
这将获取somesite.com
的HTML内容,然后使用BeautifulSoup对其进行解析,只查找HREF属性以“test”开头的链接。然后,它构建这些链接的列表并打印出来
您可以使用。试试scrapy,这是最全面的web提取框架