Search 爬虫如何确保最大覆盖率?
我读了一些关于网络爬行的文章,学习了爬行的基本知识。根据他们的说法,网络爬虫只是使用其他网页检索到的URL,并通过一棵树(一个网格) 在这种情况下,爬虫如何确保最大覆盖率。显然,可能有很多网站没有其他页面/网站的推荐链接。除了爬行和手动注册,搜索引擎是否遵循其他机制?(即从域注册中心获取信息)Search 爬虫如何确保最大覆盖率?,search,search-engine,web-crawler,Search,Search Engine,Web Crawler,我读了一些关于网络爬行的文章,学习了爬行的基本知识。根据他们的说法,网络爬虫只是使用其他网页检索到的URL,并通过一棵树(一个网格) 在这种情况下,爬虫如何确保最大覆盖率。显然,可能有很多网站没有其他页面/网站的推荐链接。除了爬行和手动注册,搜索引擎是否遵循其他机制?(即从域注册中心获取信息) 如果它们只是基于爬行,我们应该如何选择一组好的“根”站点开始爬行?(我们无法预测结果。如果我们选择100个没有引用链接的站点,引擎将只提供100个站点及其内部页面)帮助爬虫的一种方法是“站点地图”。站点地
如果它们只是基于爬行,我们应该如何选择一组好的“根”站点开始爬行?(我们无法预测结果。如果我们选择100个没有引用链接的站点,引擎将只提供100个站点及其内部页面)帮助爬虫的一种方法是“站点地图”。站点地图基本上是一个列出网站内容的文件,这样爬虫就知道在哪里导航,特别是如果你的网站有动态内容。更准确的站点地图将大大提高爬虫的准确性 以下是谷歌网站地图上的一些信息:
没有神奇的机制允许爬虫程序找到任何其他已爬虫或未手动添加到爬虫程序的站点未引用的站点
爬虫程序仅从一组手动注册的(因此是预定义的)根开始遍历链接图。爬虫程序将无法访问图外的所有内容-它将无法找到此内容 显然,可能有很多网站 没有来自的转介链接 其他网页/网站 我不认为这真的像你想的那样是个大问题 搜索引擎是否遵循任何规则 爬行以外的其他机制 还有手工登记?(即获得 来自域注册中心的信息) 我没有听说过 如果它们只是基于爬行, 我们应该如何选择一套好的 “根”站点开始爬网
任何类型的通用web目录(如)都是理想的选择,Digg或del.icio.us等社交书签网站也是理想的选择。对于使用简单标准(如robots.txt)的解决方案,请看是的。在遍历给定站点的内部页面时,Sitemap非常有用。但是我们如何知道站点“主页”来获取站点地图呢?它应该始终位于根页面中,名为
sitemap.xml
:“爬虫将无法访问图外的所有内容-它将无法找到此内容。”我们仍然可以有优秀的网站,但没有推荐或从索引网站推荐。一个优秀的网站没有从索引网站推荐,不是一个优秀的网站。