Web 为什么网络爬虫必须具有健壮性、礼貌性等特性

Web 为什么网络爬虫必须具有健壮性、礼貌性等特性,web,search,web-crawler,Web,Search,Web Crawler,为什么网络爬虫必须具有健壮性、礼貌性、可伸缩性、质量、新鲜性和可扩展性?健壮性:网络爬虫必须对网站内容的更改具有健壮性。Web搜索需要尽快检索和索引每个新网页。如果一个网站刚刚上线,爬虫需要时间遍历frontier队列中的所有前端节点,然后才能关注这个新网站。为了解决这个问题,网络爬虫有一个分布式系统,它可以索引不同规格的网页 礼貌:web搜索必须尊重每个web服务器的策略,以重新索引其网页。如果某个web服务器要求web爬虫不主动爬网某个页面,爬虫可以将该页面放入优先级队列中,并在队列位于顶部

为什么网络爬虫必须具有健壮性、礼貌性、可伸缩性、质量、新鲜性和可扩展性?

健壮性:网络爬虫必须对网站内容的更改具有健壮性。Web搜索需要尽快检索和索引每个新网页。如果一个网站刚刚上线,爬虫需要时间遍历frontier队列中的所有前端节点,然后才能关注这个新网站。为了解决这个问题,网络爬虫有一个分布式系统,它可以索引不同规格的网页

礼貌:web搜索必须尊重每个web服务器的策略,以重新索引其网页。如果某个web服务器要求web爬虫不主动爬网某个页面,爬虫可以将该页面放入优先级队列中,并在队列位于顶部时对其重新编制索引

可扩展性:每天都会在internet上添加新网页,网络爬虫必须尽快为每个网页编制索引。为此,它需要容错、分布式系统、额外的机器等。如果网络爬虫中的某个节点出现故障,其他节点可以划分其工作并为特定网页编制索引

质量:为每个用户获取有用网页的web搜索能力。如果页面包含的条目包含的内容与用户最近的搜索或用户兴趣相去甚远,则web搜索必须使用以前的用户体验来预测用户可能喜欢的内容类型

新鲜度:网络爬虫获取和索引每页新副本的能力。例如,新闻网站每秒钟更新一次,迫切需要重新编制索引。对于这个网络爬虫,为这些基于优先级的内容保留一个单独的优先级队列,以便在短时间内重新索引这些页面

可扩展性:早期,引入了新的数据格式、语言和新协议。网络爬虫处理新的和看不见的数据格式和新协议的能力称为可扩展性,这表明网络爬虫架构必须是模块化的,以便一个模块中的更改不会影响其他模块。如果网站包含web爬虫未知的新数据格式,则web爬虫可以获取数据,但需要人工干预才能将数据格式详细信息添加到爬虫索引模块