Parsing 如何解析ApacheSolr数据库

Parsing 如何解析ApacheSolr数据库,parsing,hadoop,solr,nutch,Parsing,Hadoop,Solr,Nutch,我正在使用ApacheSolr4.10。它的数据由ApacheNutch(hadoop,hbase系统)通过爬行提供。Solr使用本地文件系统作为索引存储。现在我必须解析并删除一些不好的文档,例如没有内容的文档等 我如何解析它。有没有办法使用hadoop mapreduce实现此目的?一个简单的MR作业可以读取数据、过滤不良记录并将其索引到solr。但是solr索引在本地文件系统中,而不是在hdfs上?这很好。您可以将数据发送到solr进行索引。它不需要在HDFS上。只需指向正确的Solr ur

我正在使用ApacheSolr4.10。它的数据由ApacheNutch(hadoop,hbase系统)通过爬行提供。Solr使用本地文件系统作为索引存储。现在我必须解析并删除一些不好的文档,例如没有内容的文档等


我如何解析它。有没有办法使用hadoop mapreduce实现此目的?

一个简单的MR作业可以读取数据、过滤不良记录并将其索引到solr。但是solr索引在本地文件系统中,而不是在hdfs上?这很好。您可以将数据发送到solr进行索引。它不需要在HDFS上。只需指向正确的Solr url。hadoop集群和solr机器应该具有连接性。你能给我一个参考或例子吗?您是否找到一些解决方案,如果是,请更新答案?