Web crawler 站点特定搜索引擎和网络爬虫的体系结构

Web crawler 站点特定搜索引擎和网络爬虫的体系结构,web-crawler,search-engine,Web Crawler,Search Engine,有人可以让我知道一个网站特定的搜索引擎的架构,作为一个非常一般的回答,我不想要任何编码和其他东西只是作为一个理论 我的第二个疑问是:为了更快地抓取网页,您使用不同的起始种子URL设置了两台不同的抓取机器。这两台爬行计算机的设置不是为了相互通信和共享数据。这是一种有效的分布式web爬网策略吗?首先,如果两台计算机没有连接,那么如何处理多次记录相同的web站点,最好将它们链接起来并使用组合资源(你可能会找到一些免费软件来做这件事,根据我自己的经验我不确定)。 第二,你的问题很模糊,搜索引擎有三个主要

有人可以让我知道一个网站特定的搜索引擎的架构,作为一个非常一般的回答,我不想要任何编码和其他东西只是作为一个理论


我的第二个疑问是:为了更快地抓取网页,您使用不同的起始种子URL设置了两台不同的抓取机器。这两台爬行计算机的设置不是为了相互通信和共享数据。这是一种有效的分布式web爬网策略吗?

首先,如果两台计算机没有连接,那么如何处理多次记录相同的web站点,最好将它们链接起来并使用组合资源(你可能会找到一些免费软件来做这件事,根据我自己的经验我不确定)。
第二,你的问题很模糊,搜索引擎有三个主要部分,网络爬网,索引和数据库等等,然后是前端,用户只看到前端,通常在php中,就像你的普通网站一样。索引和数据库相关的东西是你在数据库中组织数据的地方,然后网络爬网就是你在数据库中组织数据的地方你收集数据。在这个抽象层次上确实很简单,但如果没有更详细的问题,我们真的无法深入。

第二部分听起来像是一个家庭作业。你能更具体地说明你为什么要问这些问题吗?如果你想建造一些东西,你到底想建造什么?什么建筑是的,你认为它应该有吗?