Web crawler 域和所有子网站的Web爬虫程序

Web crawler 域和所有子网站的Web爬虫程序,web-crawler,Web Crawler,我正在尝试提取我的所有域子网站,并将它们添加到excel工作表中。到目前为止,我使用的所有网络爬虫只从爬虫基金会页面报告URL。我想知道是否有一种方法来报告URL是无法访问的基础页,如果不是,什么是一些可能的解决方案。 爬虫通常用于访问许多网站和他们的网页。若你们想在一个域中列出网页的网址,你们不需要使用网络爬虫。 保留从主页传出的链接列表。检查它们是否属于同一个域。在访问每个页面的列表中迭代,每次都重新检查,直到您使用整个域。请记住,如果没有指向同一域中特定页面的任何链接,则无法访问该页面。如

我正在尝试提取我的所有域子网站,并将它们添加到excel工作表中。到目前为止,我使用的所有网络爬虫只从爬虫基金会页面报告URL。我想知道是否有一种方法来报告URL是无法访问的基础页,如果不是,什么是一些可能的解决方案。

爬虫通常用于访问许多网站和他们的网页。若你们想在一个域中列出网页的网址,你们不需要使用网络爬虫。
保留从主页传出的链接列表。检查它们是否属于同一个域。在访问每个页面的列表中迭代,每次都重新检查,直到您使用整个域。请记住,如果没有指向同一域中特定页面的任何链接,则无法访问该页面。

如果可以从其他域而不是从同一域访问某个页面,则该页面是不规则的。