Python 如何使用BeautifulSoup查找页面中指向特定域的所有链接?

Python 如何使用BeautifulSoup查找页面中指向特定域的所有链接?,python,beautifulsoup,Python,Beautifulsoup,如何使用BeautifulSoup查找页面中指向特定域的所有链接?使用SoupStrainer from BeautifulSoup import BeautifulSoup, SoupStrainer import re # Find all links links = SoupStrainer('a') [tag for tag in BeautifulSoup(doc, parseOnlyThese=links)] linkstodomain = SoupStrainer('a', h

如何使用BeautifulSoup查找页面中指向特定域的所有链接?

使用SoupStrainer

from BeautifulSoup import BeautifulSoup, SoupStrainer
import re

# Find all links
links = SoupStrainer('a')
[tag for tag in BeautifulSoup(doc, parseOnlyThese=links)]

linkstodomain = SoupStrainer('a', href=re.compile('example.com/'))

编辑:修改了官方文档中的示例。

我会更选择性地使用正则表达式;这可能会导致误报。@Ignacio-对,这个例子有一个警告-正则表达式显然应该尽可能详细,以避免误报。不,你通常不应该尝试用正则表达式解析html,这里有一个详细的解释@subiet,这个例子不使用正则表达式解析html。它用于通过匹配href属性将结果限制为已知子集。