Apache 在hadoop群集上使用HBase安装Nutch 2.2.1

Apache 在hadoop群集上使用HBase安装Nutch 2.2.1,apache,hadoop,web-crawler,hbase,nutch,Apache,Hadoop,Web Crawler,Hbase,Nutch,我已经将本教程()介绍给使用Hbase安装Nutch 2.2.1.0。我已经完成了教程中给出的设置,但是没有明确提到如何抓取数据并将其存储到Hbase表中 您能为我提供一些相关的链接/书籍吗?对我最有帮助的是: 到hbase的映射在这里定义NUTCH_HOME/conf/gora hbase Mapping.xml。 因此,如果所有配置都正确,爬网脚本应该为您存储它 我有相同的配置,要让它工作有很多问题,这里有一些提示: 提示1:注意表名 我还配置了以下属性: <property>

我已经将本教程()介绍给使用Hbase安装Nutch 2.2.1.0。我已经完成了教程中给出的设置,但是没有明确提到如何抓取数据并将其存储到Hbase表中


您能为我提供一些相关的链接/书籍吗?

对我最有帮助的是:

到hbase的映射在这里定义NUTCH_HOME/conf/gora hbase Mapping.xml。 因此,如果所有配置都正确,爬网脚本应该为您存储它

我有相同的配置,要让它工作有很多问题,这里有一些提示:

提示1:注意表名

我还配置了以下属性:

<property>
  <name>storage.schema.webpage</name>
  <value>webpage</value>
</property>

<property>
  <name>storage.crawl.id</name>
  <value>babu</value>
</property>
提示2:如果您的表名不好,Nutch仍然会在控制台上写下success

提示3:如何简单查看hbase中是否存在爬网内容:

转到./bin/hbase shell

list
scan 'babu_webpage'
我遵循这一点,运行了Nutch,并将其索引到Elasticsearch,没有问题。本文末尾的六个命令为您提供了相关信息

bin/nutch inject <seed-url-dir>
bin/nutch generate -topN <n>
bin/nutch fetch -all
bin/nutch parse -all
bin/nutch updatedb
bin/nutch elasticindex <clustername> -all
bin/nutch注入
垃圾箱/坚果生成-topN
垃圾箱/坚果提取-全部
bin/nutch解析-全部
bin/nutch已更新b
箱/螺母弹性指数-所有

我在NUTCH_HOME中创建了URL目录,在那里我放置了seed.txt文件。此文件中包含要爬网的url地址。接下来我将五个命令放到脚本文件中,并在不定式循环中运行它。如果只学习教程,当然不必使用最后一个命令bin/nutch elasticindex。我坐到了50号,因为数字越大,有时会卡住。但这只能是我的情况

您好,我已经设置了Hadoop 0.20.204和hbase 92.x以及nutch-2.2.1,我已经看到Hadoop和hbase可以正常工作,因为我已经成功地在hbase外壳中创建了一个表并在其中插入了值。但是我面临的问题是,在设置nutch-2.2.1时,我得到了ClassNotFoundException:GoraOutputFormat。但是在$NUTCH_HOME/runtime/local/lib中,我可以看到包含这个类GoraOutputFormat.class的gora core*.jar。请帮忙。我在网上搜索了一下,但找不到任何解决方案。是的,我知道jar很糟糕……经过几次实验,我们用hadoop-core-1.2.0.jar、hbase-0.90.6-cdh3u5.jar、gora-core-0.3.jar这些版本安装了它,在NUTCH_HOME/lib中使用gora-hbase-0.3.jar,别忘了在hbase_HOME/hbase-0.90.6-cdh3u5.jar中使用相同的版本…这是我们唯一能够一起工作的版本…所以,我是否需要设置hadoop-1.2版本和hbase 0.90.6版本,或者只复制这些jar?您能否提供您的联系方式,如果我将来遇到Nutch的一些问题,我想与您联系?
bin/nutch inject <seed-url-dir>
bin/nutch generate -topN <n>
bin/nutch fetch -all
bin/nutch parse -all
bin/nutch updatedb
bin/nutch elasticindex <clustername> -all