Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/358.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 有没有办法继续执行意外终止的Nutch爬网任务?_Java_Lucene_Web Crawler_Nutch - Fatal编程技术网

Java 有没有办法继续执行意外终止的Nutch爬网任务?

Java 有没有办法继续执行意外终止的Nutch爬网任务?,java,lucene,web-crawler,nutch,Java,Lucene,Web Crawler,Nutch,我有一个Nutch crawl任务,它已经运行了一整天,直到我错误地终止了进程 我不想重新抓取种子(花费很多时间),所以我想知道是否有一种方法或一些Nutch Crawler参数可以使爬虫忽略那些已经被抓取的URL 非常感谢 开始爬网后,可能会在输出目录中创建一些段。使用命令并将-dir选项指向上一次运行的输出目录。对于urlDir参数,创建一个带有单个url的伪url(如果urlDir中没有任何url,则仅用于避免出错)

我有一个Nutch crawl任务,它已经运行了一整天,直到我错误地终止了进程

我不想重新抓取种子(花费很多时间),所以我想知道是否有一种方法或一些Nutch Crawler参数可以使爬虫忽略那些已经被抓取的URL


非常感谢

开始爬网后,可能会在输出目录中创建一些段。使用命令并将
-dir
选项指向上一次运行的输出目录。对于
urlDir
参数,创建一个带有单个url的伪url(如果urlDir中没有任何url,则仅用于避免出错)