Python BeautifulSoup了解相关URL吗?
我正试图抓取一个使用大量相对URL的站点。一个归档页面有许多单独条目的链接,但URL的格式是“./2011/category/example.html” 对于每个条目,我都想打开页面并将其刮平,但我不确定最有效的处理方法是什么。我正在考虑将起始URL拆分为“/”,弹出最后一项并重新加入它们,以获得基本URLPython BeautifulSoup了解相关URL吗?,python,beautifulsoup,urllib2,Python,Beautifulsoup,Urllib2,我正试图抓取一个使用大量相对URL的站点。一个归档页面有许多单独条目的链接,但URL的格式是“./2011/category/example.html” 对于每个条目,我都想打开页面并将其刮平,但我不确定最有效的处理方法是什么。我正在考虑将起始URL拆分为“/”,弹出最后一项并重新加入它们,以获得基本URL 不过,这似乎是一个很大的障碍。有更干净的方法吗?要从相对URL构造绝对URL,请使用urlparse.urljoin() 但是,如果您使用像mechanize这样的浏览系统进行爬网,您只需先
不过,这似乎是一个很大的障碍。有更干净的方法吗?要从相对URL构造绝对URL,请使用
urlparse.urljoin
()
但是,如果您使用像
mechanize
这样的浏览系统进行爬网,您只需先获取一个绝对url,然后再输入浏览器相对url即可。浏览器将跟踪状态并自动从与上一个请求相同的域获取URL。要从相对URL构造绝对URL,请使用urlparse.urljoin
()
但是,如果您使用像
mechanize
这样的浏览系统进行爬网,您只需先获取一个绝对url,然后再输入浏览器相对url即可。浏览器将跟踪状态,并自动从与上一个请求相同的域中获取URL。Perfect!听起来我也应该看看mechanize。太好了!听起来我也应该看看mechanize。