nutch hadoop只有一个从机正在爬行

nutch hadoop只有一个从机正在爬行,hadoop,fetch,nutch,Hadoop,Fetch,Nutch,我有一个3-slaves hadoop集群,我正在一个网站上执行爬网。但是,只有一个从机正在执行抓取(尽管其他从机仍处于活动状态)。如果仅对1个域进行爬网,这是正常行为吗?有没有办法强迫其他奴隶去拿 谢谢。作为任何Hadoop MR作业设计的一部分,都需要决定如何在映射程序之间分割工作。 在您的例子中,nutch将抓取过程按站点进行拆分,因此只使用一个映射器来抓取数据。如果你有更多的站点,它将分担负载 下面是对这个过程的一个很好的描述:Nutch是如何与Hadoop集群一起工作的

我有一个3-slaves hadoop集群,我正在一个网站上执行爬网。但是,只有一个从机正在执行抓取(尽管其他从机仍处于活动状态)。如果仅对1个域进行爬网,这是正常行为吗?有没有办法强迫其他奴隶去拿


谢谢。

作为任何Hadoop MR作业设计的一部分,都需要决定如何在映射程序之间分割工作。 在您的例子中,nutch将抓取过程按站点进行拆分,因此只使用一个映射器来抓取数据。如果你有更多的站点,它将分担负载
下面是对这个过程的一个很好的描述:Nutch是如何与Hadoop集群一起工作的