单独的Nutch regex文件以爬网和索引到多个Solr核心_Solr_Nutch_Solr4

单独的Nutch regex文件以爬网和索引到多个Solr核心

solr

单独的Nutch regex文件以爬网和索引到多个Solr核心,solr,nutch,solr4,Solr,Nutch,Solr4,我的设置是：UbuntuServer12.04LTS上的Nutch1.6和Solr4.3.0 我需要抓取和索引一个大网站的内容，并希望这样做使用单独的核心我已经配置了Solr并以这种方式启动它： java -Dsolr.solr.home=multicore -jar start.jar 然后我配置并启动了Nutch两次，每个源URL文件夹和索引目标（core0，core1）各一次：结果是完美的，但是为了过滤掉不需要的URL模式，我必须在regex-urlfilter.txt文件中指定一些

我的设置是：UbuntuServer12.04LTS上的Nutch1.6和Solr4.3.0

我需要抓取和索引一个大网站的内容，并希望这样做使用单独的核心

我已经配置了Solr并以这种方式启动它：

java -Dsolr.solr.home=multicore -jar start.jar

然后我配置并启动了Nutch两次，每个源URL文件夹和索引目标（core0，core1）各一次：

结果是完美的，但是为了过滤掉不需要的URL模式，我必须在regex-urlfilter.txt文件中指定一些正则表达式。由于两个爬网会话的正则表达式集不同，我必须在运行第二个爬网之前编辑regex-urlfilter.txt文件

问题：是否有办法准备两个单独的regex-urlfilter.txt文件，并在每个/bin/nutch命令行上指定适当的文件

请考虑我用2个URL集合和核心启动了我的实验配置，但是我必须配置至少5个，它们应该被配置为在没有手动编辑会话的情况下自动重新爬行……p> 您可以尝试将多个正则表达式文件和主文件作为链接，并在开始nutch索引之前重新指向它

您可以尝试将多个正则表达式文件和主文件作为链接，并在开始nutch索引之前重新指向它谢谢Jayendra，这是一个好主意。如果您输入答案，我会将其标记为已解决。干杯，赞德谢谢。。将其添加为答案：）

bin/nutch crawl urlsNewsArticles -dir crawlNewsArticles -solr http://localhost:8983/solr/core1 -depth 10 -topN 100000

bin/nutch crawl urlsPictureGalleries -dir crawlPictureGalleries -solr http://localhost:8983/solr/core0 -depth 10 -topN 100000