Java 有没有办法继续执行意外终止的Nutch爬网任务?
我有一个Nutch crawl任务,它已经运行了一整天,直到我错误地终止了进程 我不想重新抓取种子(花费很多时间),所以我想知道是否有一种方法或一些Nutch Crawler参数可以使爬虫忽略那些已经被抓取的URLJava 有没有办法继续执行意外终止的Nutch爬网任务?,java,lucene,web-crawler,nutch,Java,Lucene,Web Crawler,Nutch,我有一个Nutch crawl任务,它已经运行了一整天,直到我错误地终止了进程 我不想重新抓取种子(花费很多时间),所以我想知道是否有一种方法或一些Nutch Crawler参数可以使爬虫忽略那些已经被抓取的URL 非常感谢 开始爬网后,可能会在输出目录中创建一些段。使用命令并将-dir选项指向上一次运行的输出目录。对于urlDir参数,创建一个带有单个url的伪url(如果urlDir中没有任何url,则仅用于避免出错)
非常感谢 开始爬网后,可能会在输出目录中创建一些段。使用命令并将
-dir
选项指向上一次运行的输出目录。对于urlDir
参数,创建一个带有单个url的伪url(如果urlDir中没有任何url,则仅用于避免出错)