Web crawler 网络爬虫从哪里获取要爬网的站点列表？_Web Crawler

Web crawler 网络爬虫从哪里获取要爬网的站点列表？

web-crawler

Web crawler 网络爬虫从哪里获取要爬网的站点列表？,web-crawler,Web Crawler,我知道搜索引擎向用户提供搜索结果所采取的所有基本步骤，但有一件事我不明白，那就是对要爬网的站点列表进行物理编译。像googlebot这样的程序是如何获得他们将要搜索的网站的实际列表的？这可能会因爬虫程序而异，但最有可能的起点是域名注册。像google这样的搜索引擎通常通过从其他网站发现新内容来获取新内容例如，如果您有一个已经爬网的网站，并且链接到一个新网站。当谷歌访问你的网站并看到新网站时，它也开始为新网站编制索引另一方面，你也可以通过ping Google来为新网站编制索引，这样它不仅是被

我知道搜索引擎向用户提供搜索结果所采取的所有基本步骤，但有一件事我不明白，那就是对要爬网的站点列表进行物理编译。像googlebot这样的程序是如何获得他们将要搜索的网站的实际列表的？

这可能会因爬虫程序而异，但最有可能的起点是域名注册。

像google这样的搜索引擎通常通过从其他网站发现新内容来获取新内容

例如，如果您有一个已经爬网的网站，并且链接到一个新网站。当谷歌访问你的网站并看到新网站时，它也开始为新网站编制索引

另一方面，你也可以通过ping Google来为新网站编制索引，这样它不仅是被动的，而且是主动的。

如果它不断地查询DNS服务器，这难道不是一个巨大的带宽吗？同样，它因爬虫程序而异。就我而言，这是一个纯粹的假设，但一旦最初的爬网被“播种”，爬虫就会找到其他要爬网的站点，并将它们输入到数据库中，以便稍后进行爬网。许多站点允许您显式提交要爬网的站点，以便将其包含在搜索引擎中，将责任推给用户而不是爬网者。例如或。这完全取决于爬虫。还有一些服务允许对新注册的域进行提要或搜索。