Parsing 为什么Nutch认为它已经解析了所有段,而它还没有';T
我正在使用Nutch1.6抓取一些论坛,并使用Solr1.6.2为它们编制索引。我在Solr上运行了一个测试查询,结果很少,这让我很惊讶。我担心Nutch对页面的解析或Solr的索引都有问题。在四处窥探之后,我发现Nutch没有解析它检索到的很多页面:Parsing 为什么Nutch认为它已经解析了所有段,而它还没有';T,parsing,nutch,Parsing,Nutch,我正在使用Nutch1.6抓取一些论坛,并使用Solr1.6.2为它们编制索引。我在Solr上运行了一个测试查询,结果很少,这让我很惊讶。我担心Nutch对页面的解析或Solr的索引都有问题。在四处窥探之后,我发现Nutch没有解析它检索到的很多页面: bin/nutch readseg -list -dir crawl-mothering2/segments/ NAME GENERATED FETCHED PARSED 20130228001531 23 2
bin/nutch readseg -list -dir crawl-mothering2/segments/
NAME GENERATED FETCHED PARSED
20130228001531 23 27 9
20130228003940 1430 1434 661
20130228001829 202 206 105
20130228061337 1068 1090 475
20130228091009 1 2 0
20130228085956 34 34 25
20130228090348 44 45 34
20130228090851 7 7 6
20130228080438 364 374 192
20130228030933 1774 1795 903
20130228084205 168 169 63
但当我尝试解析这些片段时,我得到了以下结果:
bin/nutch parse crawl-mothering2/segments/*
ParseSegment: starting at 2013-03-21 00:20:43
ParseSegment: segment: crawl-mothering2/segments/20130228001531
Exception in thread "main" java.io.IOException: Segment already parsed!
at org.apache.nutch.parse.ParseOutputFormat.checkOutputSpecs(ParseOutputFormat.java:89)
at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:889)
at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:850)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:416)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121)
at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:850)
at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:824)
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1261)
at org.apache.nutch.parse.ParseSegment.parse(ParseSegment.java:209)
at org.apache.nutch.parse.ParseSegment.run(ParseSegment.java:243)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.parse.ParseSegment.main(ParseSegment.java:216)
给出了什么?Nutch无法重新分析段。要克服这个问题,您需要删除几个文件夹。请查看邮件列表讨论
您将在Nutch无法重新分析段时获得更快的响应。要克服这个问题,您需要删除几个文件夹。请查看邮件列表讨论
如果要重新解析,请进入爬网/段/和
rm -rf parse_text parse_data crawl_parse
然后你就可以跑了
bin/nutch parse crawldir/segments/<segmentnumber>
bin/nutch/segments/
如果要重新解析,请进入爬网/segments/和
rm -rf parse_text parse_data crawl_parse
然后你就可以跑了
bin/nutch parse crawldir/segments/<segmentnumber>
bin/nutch/segments/