Python 如何找到特定URL下的所有网站。_Python_Html_Web_Web Crawler

Python 如何找到特定URL下的所有网站。

python html web web-crawler

Python 如何找到特定URL下的所有网站。,python,html,web,web-crawler,Python,Html,Web,Web Crawler,我真的想知道如何找到某个URL下的所有网站。例如，我有一个URL，我想找到它下面的所有网站，如和。有什么方法可以做到这一点吗？非常感谢如果页面与根页面的超链接互连，您可以通过以下内部链接轻松访问站点。这将要求您加载根页面，解析其超链接，加载这些页面并重复，直到检测不到新链接为止。您需要实现循环检测，以避免对已爬网的页面进行爬网。蜘蛛要有礼貌地操作并不是小事；许多站点通过robots.txt文件或其他方式公开元数据，以指示它们不希望对站点的哪些部分进行索引，并且它们可能运行缓慢，以避免消耗

我真的想知道如何找到某个URL下的所有网站。例如，我有一个URL，我想找到它下面的所有网站，如和。有什么方法可以做到这一点吗？

非常感谢

如果页面与根页面的超链接互连，您可以通过以下内部链接轻松访问站点。这将要求您加载根页面，解析其超链接，加载这些页面并重复，直到检测不到新链接为止。您需要实现循环检测，以避免对已爬网的页面进行爬网。蜘蛛要有礼貌地操作并不是小事；许多站点通过robots.txt文件或其他方式公开元数据，以指示它们不希望对站点的哪些部分进行索引，并且它们可能运行缓慢，以避免消耗过多的服务器资源。你应该尊重这些准则

但是，请注意，如果没有从站点显式链接所有页面，则没有通用的方法枚举这些页面。要做到这一点，需要：

该站点启用目录列表，以便您可以识别存储在这些路径上的所有文件。大多数网站不提供这种服务；或
与网站运营商或web服务器合作，查找这些路径下列出的所有页面；或
对这些路径下的所有可能URL进行强制搜索，这是一个有效的无界集。实施这样的搜索对网站的运营商来说是不礼貌的，在时间和精力方面是禁止的，并且不能穷尽

根据@Cosmic Ossifrage的建议，您可以查找网站地图。它通常是根（）处robots.txt中的引用。可能有指向站点地图xml的链接，其中包含站点上的链接列表，这些链接可能是详尽的，也可能不是详尽的。

使用Xenus link Sleuth、WebCheck和DRKSpider

以下是链接

链接侦探：

网络检查：

DRKSpider：