Python BeautifulSoup了解相关URL吗？_Python_Beautifulsoup_Urllib2

Python BeautifulSoup了解相关URL吗？

python

Python BeautifulSoup了解相关URL吗？,python,beautifulsoup,urllib2,Python,Beautifulsoup,Urllib2,我正试图抓取一个使用大量相对URL的站点。一个归档页面有许多单独条目的链接，但URL的格式是“./2011/category/example.html” 对于每个条目，我都想打开页面并将其刮平，但我不确定最有效的处理方法是什么。我正在考虑将起始URL拆分为“/”，弹出最后一项并重新加入它们，以获得基本URL 不过，这似乎是一个很大的障碍。有更干净的方法吗？要从相对URL构造绝对URL，请使用urlparse.urljoin（）但是，如果您使用像mechanize这样的浏览系统进行爬网，您只需先

我正试图抓取一个使用大量相对URL的站点。一个归档页面有许多单独条目的链接，但URL的格式是“./2011/category/example.html”

对于每个条目，我都想打开页面并将其刮平，但我不确定最有效的处理方法是什么。我正在考虑将起始URL拆分为“/”，弹出最后一项并重新加入它们，以获得基本URL

不过，这似乎是一个很大的障碍。有更干净的方法吗？

要从相对URL构造绝对URL，请使用

urlparse.urljoin

（）

但是，如果您使用像

mechanize

这样的浏览系统进行爬网，您只需先获取一个绝对url，然后再输入浏览器相对url即可。浏览器将跟踪状态并自动从与上一个请求相同的域获取URL。

要从相对URL构造绝对URL，请使用

urlparse.urljoin

（）

但是，如果您使用像

mechanize

这样的浏览系统进行爬网，您只需先获取一个绝对url，然后再输入浏览器相对url即可。浏览器将跟踪状态，并自动从与上一个请求相同的域中获取URL。

Perfect！听起来我也应该看看mechanize。太好了！听起来我也应该看看mechanize。