Python 如何找到特定URL下的所有网站。

Python 如何找到特定URL下的所有网站。,python,html,web,web-crawler,Python,Html,Web,Web Crawler,我真的想知道如何找到某个URL下的所有网站。 例如,我有一个URL,我想找到它下面的所有网站,如和。 有什么方法可以做到这一点吗? 非常感谢 如果页面与根页面的超链接互连,您可以通过以下内部链接轻松访问站点。这将要求您加载根页面,解析其超链接,加载这些页面并重复,直到检测不到新链接为止。您需要实现循环检测,以避免对已爬网的页面进行爬网。蜘蛛要有礼貌地操作并不是小事;许多站点通过robots.txt文件或其他方式公开元数据,以指示它们不希望对站点的哪些部分进行索引,并且它们可能运行缓慢,以避免消耗

我真的想知道如何找到某个URL下的所有网站。 例如,我有一个URL,我想找到它下面的所有网站,如和。 有什么方法可以做到这一点吗?
非常感谢

如果页面与根页面的超链接互连,您可以通过以下内部链接轻松访问站点。这将要求您加载根页面,解析其超链接,加载这些页面并重复,直到检测不到新链接为止。您需要实现循环检测,以避免对已爬网的页面进行爬网。蜘蛛要有礼貌地操作并不是小事;许多站点通过robots.txt文件或其他方式公开元数据,以指示它们不希望对站点的哪些部分进行索引,并且它们可能运行缓慢,以避免消耗过多的服务器资源。你应该尊重这些准则

但是,请注意,如果没有从站点显式链接所有页面,则没有通用的方法枚举这些页面。要做到这一点,需要:

  • 该站点启用目录列表,以便您可以识别存储在这些路径上的所有文件。大多数网站不提供这种服务;或
  • 与网站运营商或web服务器合作,查找这些路径下列出的所有页面;或
  • 对这些路径下的所有可能URL进行强制搜索,这是一个有效的无界集。实施这样的搜索对网站的运营商来说是不礼貌的,在时间和精力方面是禁止的,并且不能穷尽

根据@Cosmic Ossifrage的建议,您可以查找网站地图。它通常是根()处robots.txt中的引用。可能有指向站点地图xml的链接,其中包含站点上的链接列表,这些链接可能是详尽的,也可能不是详尽的。

使用Xenus link Sleuth、WebCheck和DRKSpider

以下是链接

  • 链接侦探:
  • 网络检查:
  • DRKSpider: