Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/solr/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
单独的Nutch regex文件以爬网和索引到多个Solr核心_Solr_Nutch_Solr4 - Fatal编程技术网

单独的Nutch regex文件以爬网和索引到多个Solr核心

单独的Nutch regex文件以爬网和索引到多个Solr核心,solr,nutch,solr4,Solr,Nutch,Solr4,我的设置是:UbuntuServer12.04LTS上的Nutch1.6和Solr4.3.0 我需要抓取和索引一个大网站的内容,并希望这样做使用单独的核心 我已经配置了Solr并以这种方式启动它: java -Dsolr.solr.home=multicore -jar start.jar 然后我配置并启动了Nutch两次,每个源URL文件夹和索引目标(core0,core1)各一次: 结果是完美的,但是为了过滤掉不需要的URL模式,我必须在regex-urlfilter.txt文件中指定一些

我的设置是:UbuntuServer12.04LTS上的Nutch1.6和Solr4.3.0

我需要抓取和索引一个大网站的内容,并希望这样做使用单独的核心

我已经配置了Solr并以这种方式启动它:

java -Dsolr.solr.home=multicore -jar start.jar
然后我配置并启动了Nutch两次,每个源URL文件夹和索引目标(core0,core1)各一次:

结果是完美的,但是为了过滤掉不需要的URL模式,我必须在regex-urlfilter.txt文件中指定一些正则表达式。 由于两个爬网会话的正则表达式集不同,我必须在运行第二个爬网之前编辑regex-urlfilter.txt文件

问题:是否有办法准备两个单独的regex-urlfilter.txt文件,并在每个/bin/nutch命令行上指定适当的文件


请考虑我用2个URL集合和核心启动了我的实验配置,但是我必须配置至少5个,它们应该被配置为在没有手动编辑会话的情况下自动重新爬行……p> 您可以尝试将多个正则表达式文件和主文件作为链接,并在开始nutch索引之前重新指向它

您可以尝试将多个正则表达式文件和主文件作为链接,并在开始nutch索引之前重新指向它谢谢Jayendra,这是一个好主意。如果您输入答案,我会将其标记为已解决。干杯,赞德谢谢。。将其添加为答案:)
bin/nutch crawl urlsNewsArticles -dir crawlNewsArticles -solr http://localhost:8983/solr/core1 -depth 10 -topN 100000

bin/nutch crawl urlsPictureGalleries -dir crawlPictureGalleries -solr http://localhost:8983/solr/core0 -depth 10 -topN 100000