Java 我的nutch recrawl脚本出了什么问题_Java_Nutch

Java 我的nutch recrawl脚本出了什么问题

java

Java 我的nutch recrawl脚本出了什么问题,java,nutch,Java,Nutch,您好，我正在使用此脚本重新爬网我的坚果，但它给出了一个例外 Indexer: org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory file:/home/hat/crawl/indexes already exists at org.apache.hadoop.mapred.FileOutputFormat.checkOutputSpecs(FileOutputFormat.java:111)

您好，我正在使用此脚本重新爬网我的坚果，但它给出了一个例外

Indexer: org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory file:/home/hat/crawl/indexes already exists
    at org.apache.hadoop.mapred.FileOutputFormat.checkOutputSpecs(FileOutputFormat.java:111)
    at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:772)
    at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:730)
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1249)
    at org.apache.nutch.indexer.Indexer.index(Indexer.java:76)
    at org.apache.nutch.indexer.Indexer.run(Indexer.java:97)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
    at org.apache.nutch.indexer.Indexer.main(Indexer.java:106)

剧本

bin/nutch inject crawl/crawldb urls
bin/nutch generate crawl/crawldb crawl/segments 
s1=`ls -d crawl/segments/2* | tail -1`
echo $s1
bin/nutch fetch $s1 -threads 100 -depth 3 -topN 5
bin/nutch updatedb crawl/crawldb $s1 


bin/nutch invertlinks crawl/linkdb -dir crawl/segments 

bin/nutch index crawl/indexes crawl/crawldb crawl/linkdb crawl/segments/*

从

http://wiki.apache.org/nutch/NutchTutorial

谁能告诉我出了什么问题……

您正在使用相同的目录来存储生成的索引，即爬网/索引。尝试使用不同的目录或删除旧的目录。

错误消息

输出目录文件：/home/hat/crawl/index已经存在。

对我来说似乎很清楚，不？你似乎是正确的，但解决方法是什么，，，，每次我需要删除目录和索引或什么？？？删除或移动它。别把它留在那里。