Parsing 为什么Nutch认为它已经解析了所有段，而它还没有'；T_Parsing_Nutch

Parsing 为什么Nutch认为它已经解析了所有段，而它还没有'；T

parsing

Parsing 为什么Nutch认为它已经解析了所有段，而它还没有'；T,parsing,nutch,Parsing,Nutch,我正在使用Nutch1.6抓取一些论坛，并使用Solr1.6.2为它们编制索引。我在Solr上运行了一个测试查询，结果很少，这让我很惊讶。我担心Nutch对页面的解析或Solr的索引都有问题。在四处窥探之后，我发现Nutch没有解析它检索到的很多页面： bin/nutch readseg -list -dir crawl-mothering2/segments/ NAME GENERATED FETCHED PARSED 20130228001531 23 2

我正在使用Nutch1.6抓取一些论坛，并使用Solr1.6.2为它们编制索引。我在Solr上运行了一个测试查询，结果很少，这让我很惊讶。我担心Nutch对页面的解析或Solr的索引都有问题。在四处窥探之后，我发现Nutch没有解析它检索到的很多页面：

bin/nutch readseg -list -dir crawl-mothering2/segments/

NAME        GENERATED   FETCHED   PARSED
20130228001531  23      27        9
20130228003940  1430    1434      661
20130228001829  202     206       105
20130228061337  1068    1090      475
20130228091009  1       2         0
20130228085956  34      34        25
20130228090348  44      45        34
20130228090851  7       7         6
20130228080438  364     374       192
20130228030933  1774    1795      903
20130228084205  168     169       63

但当我尝试解析这些片段时，我得到了以下结果：

bin/nutch parse crawl-mothering2/segments/*
ParseSegment: starting at 2013-03-21 00:20:43
ParseSegment: segment: crawl-mothering2/segments/20130228001531
Exception in thread "main" java.io.IOException: Segment already parsed!
    at org.apache.nutch.parse.ParseOutputFormat.checkOutputSpecs(ParseOutputFormat.java:89)
    at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:889)
    at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:850)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:416)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121)
    at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:850)
    at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:824)
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1261)
    at org.apache.nutch.parse.ParseSegment.parse(ParseSegment.java:209)
    at org.apache.nutch.parse.ParseSegment.run(ParseSegment.java:243)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
    at org.apache.nutch.parse.ParseSegment.main(ParseSegment.java:216)

给出了什么？

Nutch无法重新分析段。要克服这个问题，您需要删除几个文件夹。请查看邮件列表讨论

您将在Nutch无法重新分析段时获得更快的响应。要克服这个问题，您需要删除几个文件夹。请查看邮件列表讨论

如果要重新解析，请进入爬网/段/和

rm -rf parse_text parse_data crawl_parse

然后你就可以跑了

bin/nutch parse crawldir/segments/<segmentnumber>

bin/nutch/segments/

如果要重新解析，请进入爬网/segments/和

rm -rf parse_text parse_data crawl_parse

然后你就可以跑了

bin/nutch parse crawldir/segments/<segmentnumber>

bin/nutch/segments/