Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/329.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何编写python脚本来搜索网站html中的匹配链接_Python_Scrape - Fatal编程技术网

如何编写python脚本来搜索网站html中的匹配链接

如何编写python脚本来搜索网站html中的匹配链接,python,scrape,Python,Scrape,我对python不太熟悉,必须编写一个脚本来执行许多函数。 基本上,我仍然需要的模块是如何检查网站代码以匹配预先提供的链接。通常,您使用(HTMLIB等)在Python中编程web。你也可以使用,等等。然后,为了处理HTML和获取链接,你需要使用解析器,比如。匹配链接什么?他们的属性?链接显示文本? 也许是这样的: from BeautifulSoup import BeautifulSoup, SoupStrainer import re import urllib2 doc = urlli

我对python不太熟悉,必须编写一个脚本来执行许多函数。
基本上,我仍然需要的模块是如何检查网站代码以匹配预先提供的链接。

通常,您使用(HTMLIB等)在Python中编程web。你也可以使用,等等。然后,为了处理HTML和获取链接,你需要使用解析器,比如。

匹配链接什么?他们的属性?链接显示文本? 也许是这样的:

from BeautifulSoup import BeautifulSoup, SoupStrainer
import re
import urllib2

doc = urllib2.urlopen("http://somesite.com").read()
links = SoupStrainer('a', href=re.compile(r'^test'))
soup = [str(elm) for elm in BeautifulSoup(doc, parseOnlyThese=links)]
for elm in soup:
    print elm
这将获取
somesite.com
的HTML内容,然后使用BeautifulSoup对其进行解析,只查找HREF属性以“test”开头的链接。然后,它构建这些链接的列表并打印出来


您可以使用。

试试scrapy,这是最全面的web提取框架