Python 在web服务器上查找子目录

Python 在web服务器上查找子目录,python,web-crawler,Python,Web Crawler,我们可以使用os.walk()轻松地在本地光盘上找到子目录,但如果这些目录不是本地的,并且位于web服务器上,该怎么办 例如,我有一个网站叫做。有几个子目录没有在主页上引用。和 如何使用简单的python爬虫程序而不使用HTML标记作为参考点来查找这些子目录?好吧,一般来说,您不能。 有些网站可能会在您的uri以“/”或“index.html”结尾时为您提供子目录索引,但它们不必这样做。当你访问网站时,网站作者基本上可以返回他们想要的任何东西(使用浏览器或程序)。他们可能会返回“未找到”(即使您

我们可以使用os.walk()轻松地在本地光盘上找到子目录,但如果这些目录不是本地的,并且位于web服务器上,该怎么办

例如,我有一个网站叫做。有几个子目录没有在主页上引用。和


如何使用简单的python爬虫程序而不使用HTML标记作为参考点来查找这些子目录?

好吧,一般来说,您不能。

有些网站可能会在您的uri以“/”或“index.html”结尾时为您提供子目录索引,但它们不必这样做。当你访问网站时,网站作者基本上可以返回他们想要的任何东西(使用浏览器或程序)。他们可能会返回“未找到”(即使您请求的文档存在于您请求的确切位置)


它完全依赖于实现

您想从远程服务器访问的任何内容都需要以某种方式公开。没有自动发现机制——这就是为什么搜索引擎需要网站地图的原因。在这种情况下,最好的做法是制作一个站点地图,并让您的爬虫程序从那里开始。

我认为即使使用HTML标记也不可能