Nutch2.0和Hadoop。如何防止缓存conf/regex-urlfilter.txt

Nutch2.0和Hadoop。如何防止缓存conf/regex-urlfilter.txt,hadoop,nutch,Hadoop,Nutch,我在单机上安装了Nutch2.x和Hadoop1.2.1 我配置seed.txt、conf/regex-urlfilter.txt和run命令 crawl urls/seed.txt TestCrawl http://localhost:8088/solr/ 2 然后我想更改conf/regex-urlfilter.txt中的规则 我在两个文件中更改了它: ~$ find . -name 'regex-urlfilter.txt' ./webcrawer/apache-nutch-2.2.

我在单机上安装了Nutch2.x和Hadoop1.2.1

我配置seed.txt、conf/regex-urlfilter.txt和run命令

 crawl urls/seed.txt TestCrawl http://localhost:8088/solr/ 2
然后我想更改conf/regex-urlfilter.txt中的规则

我在两个文件中更改了它:

~$ find . -name 'regex-urlfilter.txt' 
./webcrawer/apache-nutch-2.2.1/conf/regex-urlfilter.txt
./webcrawer/apache-nutch-2.2.1/runtime/local/conf/regex-urlfilter.txt
然后我就跑

  crawl urls/seed.txt TestCrawl2 http://localhost:8088/solr/ 2
但是regex-urlfilter.txt中的更改不会影响

Hadoop报告它使用了这个文件

cat /home/hadoop/data/hadoop-unjar6761544045585295068/regex-urlfilter.txt
当我看到文件的内容时,我会看到旧文件


如何强制hadoop使用新配置?

此设置存储在arhive文件中

/home/hadoop/webcrawer/apache-nutch-2.2.1/build/apache-nutch-2.2.1.job


要用新设置替换它或编辑arhive文件/home/hadoop/webcrawer/apache-nutch-2.2.1/build/apache-nutch-2.2.1.job

。还有别的想法吗?
ant clean
ant runtime