Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/319.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python BeautifulSoup了解相关URL吗?_Python_Beautifulsoup_Urllib2 - Fatal编程技术网

Python BeautifulSoup了解相关URL吗?

Python BeautifulSoup了解相关URL吗?,python,beautifulsoup,urllib2,Python,Beautifulsoup,Urllib2,我正试图抓取一个使用大量相对URL的站点。一个归档页面有许多单独条目的链接,但URL的格式是“./2011/category/example.html” 对于每个条目,我都想打开页面并将其刮平,但我不确定最有效的处理方法是什么。我正在考虑将起始URL拆分为“/”,弹出最后一项并重新加入它们,以获得基本URL 不过,这似乎是一个很大的障碍。有更干净的方法吗?要从相对URL构造绝对URL,请使用urlparse.urljoin() 但是,如果您使用像mechanize这样的浏览系统进行爬网,您只需先

我正试图抓取一个使用大量相对URL的站点。一个归档页面有许多单独条目的链接,但URL的格式是“./2011/category/example.html”

对于每个条目,我都想打开页面并将其刮平,但我不确定最有效的处理方法是什么。我正在考虑将起始URL拆分为“/”,弹出最后一项并重新加入它们,以获得基本URL


不过,这似乎是一个很大的障碍。有更干净的方法吗?

要从相对URL构造绝对URL,请使用
urlparse.urljoin
()


但是,如果您使用像
mechanize
这样的浏览系统进行爬网,您只需先获取一个绝对url,然后再输入浏览器相对url即可。浏览器将跟踪状态并自动从与上一个请求相同的域获取URL。

要从相对URL构造绝对URL,请使用
urlparse.urljoin
()


但是,如果您使用像
mechanize
这样的浏览系统进行爬网,您只需先获取一个绝对url,然后再输入浏览器相对url即可。浏览器将跟踪状态,并自动从与上一个请求相同的域中获取URL。

Perfect!听起来我也应该看看mechanize。太好了!听起来我也应该看看mechanize。