如何在以伪分布式模式安装的Hadoop中运行Nutch_Hadoop_Web Crawler_Nutch

如何在以伪分布式模式安装的Hadoop中运行Nutch

hadoop web-crawler

如何在以伪分布式模式安装的Hadoop中运行Nutch,hadoop,web-crawler,nutch,Hadoop,Web Crawler,Nutch,我的Ubuntu上安装了Nutch1.13。我可以在独立模式下运行爬网。它成功运行并产生了预期的结果，但我不知道现在如何在hadoop中运行它？我已经在伪分布式模式下安装了Hadoop，我想用Hadoop运行Nutch爬网并监视它。我怎么做？有很多关于在独立模式下运行它的教程，但是我找不到任何关于如何在Hadoop中运行它的明确说明，除了我在使用ant构建它之后必须使用“Nutch Job” 感谢您的帮助。确保您已从源代码构建Nutch，即不要使用仅在本地模式下工作的二进制版本。一旦你用 ant

我的Ubuntu上安装了Nutch1.13。我可以在独立模式下运行爬网。它成功运行并产生了预期的结果，但我不知道现在如何在hadoop中运行它？我已经在伪分布式模式下安装了Hadoop，我想用Hadoop运行Nutch爬网并监视它。我怎么做？有很多关于在独立模式下运行它的教程，但是我找不到任何关于如何在Hadoop中运行它的明确说明，除了我在使用ant构建它之后必须使用“Nutch Job”

感谢您的帮助。

确保您已从源代码构建Nutch，即不要使用仅在本地模式下工作的二进制版本。一旦你用

ant清理运行时

转到runtime/deploy/bin并像往常一样运行脚本

注意：在重新编译之前，您需要修改conf文件