Web crawler 网络爬虫从哪里获取要爬网的站点列表?

Web crawler 网络爬虫从哪里获取要爬网的站点列表?,web-crawler,Web Crawler,我知道搜索引擎向用户提供搜索结果所采取的所有基本步骤,但有一件事我不明白,那就是对要爬网的站点列表进行物理编译。像googlebot这样的程序是如何获得他们将要搜索的网站的实际列表的?这可能会因爬虫程序而异,但最有可能的起点是域名注册。像google这样的搜索引擎通常通过从其他网站发现新内容来获取新内容 例如,如果您有一个已经爬网的网站,并且链接到一个新网站。当谷歌访问你的网站并看到新网站时,它也开始为新网站编制索引 另一方面,你也可以通过ping Google来为新网站编制索引,这样它不仅是被

我知道搜索引擎向用户提供搜索结果所采取的所有基本步骤,但有一件事我不明白,那就是对要爬网的站点列表进行物理编译。像googlebot这样的程序是如何获得他们将要搜索的网站的实际列表的?

这可能会因爬虫程序而异,但最有可能的起点是域名注册。

像google这样的搜索引擎通常通过从其他网站发现新内容来获取新内容

例如,如果您有一个已经爬网的网站,并且链接到一个新网站。当谷歌访问你的网站并看到新网站时,它也开始为新网站编制索引


另一方面,你也可以通过ping Google来为新网站编制索引,这样它不仅是被动的,而且是主动的。

如果它不断地查询DNS服务器,这难道不是一个巨大的带宽吗?同样,它因爬虫程序而异。就我而言,这是一个纯粹的假设,但一旦最初的爬网被“播种”,爬虫就会找到其他要爬网的站点,并将它们输入到数据库中,以便稍后进行爬网。许多站点允许您显式提交要爬网的站点,以便将其包含在搜索引擎中,将责任推给用户而不是爬网者。例如或。这完全取决于爬虫。还有一些服务允许对新注册的域进行提要或搜索。