Java 有没有办法继续执行意外终止的Nutch爬网任务？_Java_Lucene_Web Crawler_Nutch

Java 有没有办法继续执行意外终止的Nutch爬网任务？

java lucene web-crawler

Java 有没有办法继续执行意外终止的Nutch爬网任务？,java,lucene,web-crawler,nutch,Java,Lucene,Web Crawler,Nutch,我有一个Nutch crawl任务，它已经运行了一整天，直到我错误地终止了进程我不想重新抓取种子（花费很多时间），所以我想知道是否有一种方法或一些Nutch Crawler参数可以使爬虫忽略那些已经被抓取的URL 非常感谢开始爬网后，可能会在输出目录中创建一些段。使用命令并将-dir选项指向上一次运行的输出目录。对于urlDir参数，创建一个带有单个url的伪url（如果urlDir中没有任何url，则仅用于避免出错）

我有一个Nutch crawl任务，它已经运行了一整天，直到我错误地终止了进程

我不想重新抓取种子（花费很多时间），所以我想知道是否有一种方法或一些Nutch Crawler参数可以使爬虫忽略那些已经被抓取的URL

非常感谢

开始爬网后，可能会在输出目录中创建一些段。使用命令并将

-dir

选项指向上一次运行的输出目录。对于

urlDir

参数，创建一个带有单个url的伪url（如果urlDir中没有任何url，则仅用于避免出错）