Hadoop 如何将apache Nutch 2.x连接到远程HBase群集?

Hadoop 如何将apache Nutch 2.x连接到远程HBase群集?,hadoop,hbase,apache-zookeeper,nutch,nutch2,Hadoop,Hbase,Apache Zookeeper,Nutch,Nutch2,我有两台机器。一台机器以伪分布式模式运行HBase 0.92.2,而另一台机器使用Nutch 2.x crawler。如何配置这两台机器,使一台使用HBase-0.92.2的机器充当后端存储,另一台使用Nutch-2.x的机器充当爬虫?我终于做到了。我很容易做到。 我在这里分享我的经验。也许它能帮助别人 1-将hbase-site.xml的配置文件更改为伪分布式模式 2-最重要的是:在hbase机器上,用真实的网络ip替换/etc/hosts中的localhost ip,如下所示 10.11.2

我有两台机器。一台机器以伪分布式模式运行HBase 0.92.2,而另一台机器使用Nutch 2.x crawler。如何配置这两台机器,使一台使用HBase-0.92.2的机器充当后端存储,另一台使用Nutch-2.x的机器充当爬虫?

我终于做到了。我很容易做到。 我在这里分享我的经验。也许它能帮助别人

1-将hbase-site.xml的配置文件更改为伪分布式模式

2-最重要的是:在hbase机器上,用真实的网络ip替换/etc/hosts中的localhost ip,如下所示

10.11.22.189主本地主机

hbase机器的ip=10.11.22.189 (注意:如果您不更改hbase计算机的本地主机ip,远程nutch爬虫程序将无法连接到它)

4-将/symlink hbase-site.xml复制到$NUTCH_HOME/conf中

5-启动你的爬虫程序,看看它是否正常工作