如何使用nutch从hbase抓取数据

如何使用nutch从hbase抓取数据,hbase,nutch,Hbase,Nutch,我的要求是使用Nutch从HBASE抓取数据,然后将其索引到Solr中。我怎样才能继续呢 Nutch设计用于抓取网站,因此不知道如何抓取hbase 由于您正在尝试将内容从hbase索引到solr,因此至少有两个选项: 如果您有一个将数据保存到hbase的应用程序,请在数据保存到hbase后,对其进行修改以将数据索引到solr中 您还可以编写Map/Reduce作业,将数据从hbase发送到solr 你也应该调查一下。它集成了hbase和solr 另外,如果您的搜索查询很简单,您可以设计您的hba

我的要求是使用Nutch从HBASE抓取数据,然后将其索引到Solr中。我怎样才能继续呢

Nutch设计用于抓取网站,因此不知道如何抓取hbase

由于您正在尝试将内容从hbase索引到solr,因此至少有两个选项:

如果您有一个将数据保存到hbase的应用程序,请在数据保存到hbase后,对其进行修改以将数据索引到solr中

您还可以编写Map/Reduce作业,将数据从hbase发送到solr

你也应该调查一下。它集成了hbase和solr

另外,如果您的搜索查询很简单,您可以设计您的hbase模式,这样您就不需要solr了。

我认为当涉及数据库时,“爬网”不是正确的术语。爬网是一个特定的用例,当你想“爬网”网页时,你不知道你从什么开始。你不知道终点是什么。因此,你从某个点开始,试图发现外面有什么

说到数据库,就是像HBase这样的NOSQL数据库。您已经“知道”数据库中的内容。您所要做的就是完全检索信息,或者根据特定查询部分检索其中的内容

我发现,在您的案例中,您可能需要调整Lucene,从HBase查询的数据中构建索引,然后将这些索引提供给Solr,以创建一个完整的搜索应用程序


希望这可能是您正在寻找的方向。

非常感谢,我将尝试实现,因此不可能使用nutch从hbase抓取数据,对吗??还有一件事我想知道我是否可以从hdfs文件系统爬网??感谢您的回复:)