如何在以伪分布式模式安装的Hadoop中运行Nutch

如何在以伪分布式模式安装的Hadoop中运行Nutch,hadoop,web-crawler,nutch,Hadoop,Web Crawler,Nutch,我的Ubuntu上安装了Nutch1.13。我可以在独立模式下运行爬网。它成功运行并产生了预期的结果,但我不知道现在如何在hadoop中运行它?我已经在伪分布式模式下安装了Hadoop,我想用Hadoop运行Nutch爬网并监视它。我怎么做?有很多关于在独立模式下运行它的教程,但是我找不到任何关于如何在Hadoop中运行它的明确说明,除了我在使用ant构建它之后必须使用“Nutch Job” 感谢您的帮助。确保您已从源代码构建Nutch,即不要使用仅在本地模式下工作的二进制版本。一旦你用 ant

我的Ubuntu上安装了Nutch1.13。我可以在独立模式下运行爬网。它成功运行并产生了预期的结果,但我不知道现在如何在hadoop中运行它?我已经在伪分布式模式下安装了Hadoop,我想用Hadoop运行Nutch爬网并监视它。我怎么做?有很多关于在独立模式下运行它的教程,但是我找不到任何关于如何在Hadoop中运行它的明确说明,除了我在使用ant构建它之后必须使用“Nutch Job”


感谢您的帮助。

确保您已从源代码构建Nutch,即不要使用仅在本地模式下工作的二进制版本。一旦你用

ant清理运行时

转到runtime/deploy/bin并像往常一样运行脚本

注意:在重新编译之前,您需要修改conf文件