Web crawler 域和所有子网站的Web爬虫程序_Web Crawler

Web crawler 域和所有子网站的Web爬虫程序

web-crawler

Web crawler 域和所有子网站的Web爬虫程序,web-crawler,Web Crawler,我正在尝试提取我的所有域子网站，并将它们添加到excel工作表中。到目前为止，我使用的所有网络爬虫只从爬虫基金会页面报告URL。我想知道是否有一种方法来报告URL是无法访问的基础页，如果不是，什么是一些可能的解决方案。爬虫通常用于访问许多网站和他们的网页。若你们想在一个域中列出网页的网址，你们不需要使用网络爬虫。保留从主页传出的链接列表。检查它们是否属于同一个域。在访问每个页面的列表中迭代，每次都重新检查，直到您使用整个域。请记住，如果没有指向同一域中特定页面的任何链接，则无法访问该页面。如

我正在尝试提取我的所有域子网站，并将它们添加到excel工作表中。到目前为止，我使用的所有网络爬虫只从爬虫基金会页面报告URL。我想知道是否有一种方法来报告URL是无法访问的基础页，如果不是，什么是一些可能的解决方案。

爬虫通常用于访问许多网站和他们的网页。若你们想在一个域中列出网页的网址，你们不需要使用网络爬虫。

保留从主页传出的链接列表。检查它们是否属于同一个域。在访问每个页面的列表中迭代，每次都重新检查，直到您使用整个域。请记住，如果没有指向同一域中特定页面的任何链接，则无法访问该页面。

如果可以从其他域而不是从同一域访问某个页面，则该页面是不规则的。