python urljoin目录不包括
我想修复关于urlparse.urljoin的一些情况。 像这样使用这个库python urljoin目录不包括,python,regex,urlparse,Python,Regex,Urlparse,我想修复关于urlparse.urljoin的一些情况。 像这样使用这个库 urljoin('http://xxxx.yyy/directory/','file.file') 给我,但如果我不给斜杠在最后的网址像 urljoin('http://xxxx.yyy/directory','file.file') 给我和这个发行版我写自动采集程序。 任何人都可以解决这个问题。我试图把斜杠放在最后的regex和replace中,但当url像这样完成时,它们不能正常工作 http://xxxx.yy
urljoin('http://xxxx.yyy/directory/','file.file')
给我,但如果我不给斜杠在最后的网址像
urljoin('http://xxxx.yyy/directory','file.file')
给我和这个发行版我写自动采集程序。
任何人都可以解决这个问题。我试图把斜杠放在最后的regex和replace中,但当url像这样完成时,它们不能正常工作
http://xxxx.yyy/zzzz/file.file
它的行为是正确的。如果您在
http://example.com/index.html
并单击指向two.html
的链接,您将到达http://example.com/two.html
。这就是相对URL的定义方式
urljoin
无法知道最后一个组件是否是目录。您可以尝试猜测,也许可以通过查找
,如果您认为应该添加斜杠,则只添加斜杠。我知道urljoin工作正常。所以我也试着用扩展名检查,但有些文件链接没有扩展名。谢谢你的回答,伊维:)