Web scraping Apache Nutch NoSuchElementException和bin/Nutch inject、readdb、generate选项

Web scraping Apache Nutch NoSuchElementException和bin/Nutch inject、readdb、generate选项,web-scraping,nutch,Web Scraping,Nutch,我不熟悉ApacheNutch2.3和Solr。我正在努力让我的第一次爬网工作。我安装了ApacheNutch和Solr,正如官方文档中提到的那样,它们都工作正常。但是,当我执行以下步骤时,会出现错误- bin/nutch注入示例/dmoz/-工作正常 (InjectorJob:筛选器拒绝的URL总数:2) InjectorJob:规范化和筛选后注入的URL总数:130) 错误-$bin/nutch生成-topN 5 发电机工作时间:2015-06-25 17:51:50 GeneratorJo

我不熟悉ApacheNutch2.3和Solr。我正在努力让我的第一次爬网工作。我安装了ApacheNutch和Solr,正如官方文档中提到的那样,它们都工作正常。但是,当我执行以下步骤时,会出现错误- bin/nutch注入示例/dmoz/-工作正常 (InjectorJob:筛选器拒绝的URL总数:2) InjectorJob:规范化和筛选后注入的URL总数:130)

错误-$bin/nutch生成-topN 5 发电机工作时间:2015-06-25 17:51:50 GeneratorJob:选择要获取的最佳评分URL。 GeneratorJob:正在启动 GeneratorJob:筛选:true GeneratorJob:规范化:true 发电机作业:topN:5

java.util.NoSuchElementException
at java.util.TreeMap.key(TreeMap.java:1323)
at java.util.TreeMap.firstKey(TreeMap.java:290)
at org.apache.gora.memory.store.MemStore.execute(MemStore.java:125)
at org.apache.gora.query.impl.QueryBase.execute(QueryBase.java:73) ...
GeneratorJob: generated batch id: 1435279910-1190400607 containing 0 URLs
如果我这样做了,同样的错误-$bin/nutch readdb-stats 错误-java.util.NoSuchElementException。。。 WebTable的统计信息:

jobs:   {db_stats-job_local970586387_0001={jobName=db_stats, jobID=job_local970586387_0001, counters={Map-Reduce Framework={MAP_OUTPUT_MATERIALIZED_BYTES=6, REDUCE_INPUT_RECORDS=0, SPILLED_RECORDS=0, MAP_INPUT_RECORDS=0, SPLIT_RAW_BYTES=653, MAP_OUTPUT_BYTES=0, REDUCE_SHUFFLE_BYTES=0, REDUCE_INPUT_GROUPS=0, COMBINE_OUTPUT_RECORDS=0, REDUCE_OUTPUT_RECORDS=0, MAP_OUTPUT_RECORDS=0, COMBINE_INPUT_RECORDS=0, COMMITTED_HEAP_BYTES=514850816}, File Input Format Counters ={BYTES_READ=0}, File Output Format Counters ={BYTES_WRITTEN=98}, FileSystemCounters={FILE_BYTES_WRITTEN=1389120, FILE_BYTES_READ=1216494}}}}
TOTAL urls: 0
我也不能使用生成或爬网命令

谁能告诉我我做错了什么


谢谢。

我对nutch也是新手。但是,我认为问题在于您尚未配置数据存储。我也犯了同样的错误,而且更进一步。您需要遵循以下内容:,或以下内容:。然后,重新构建:
ant运行时

我对nutch也是新手。但是,我认为问题在于您尚未配置数据存储。我也犯了同样的错误,而且更进一步。您需要遵循以下内容:,或以下内容:。然后,重新构建:
ant运行时

您使用的是什么数据存储?HBase?您正在使用什么数据存储?HBase?