Parsing 如何解析ApacheSolr数据库_Parsing_Hadoop_Solr_Nutch

Parsing 如何解析ApacheSolr数据库

parsing hadoop solr

Parsing 如何解析ApacheSolr数据库,parsing,hadoop,solr,nutch,Parsing,Hadoop,Solr,Nutch,我正在使用ApacheSolr4.10。它的数据由ApacheNutch（hadoop，hbase系统）通过爬行提供。Solr使用本地文件系统作为索引存储。现在我必须解析并删除一些不好的文档，例如没有内容的文档等我如何解析它。有没有办法使用hadoop mapreduce实现此目的？一个简单的MR作业可以读取数据、过滤不良记录并将其索引到solr。但是solr索引在本地文件系统中，而不是在hdfs上？这很好。您可以将数据发送到solr进行索引。它不需要在HDFS上。只需指向正确的Solr ur

我正在使用ApacheSolr4.10。它的数据由ApacheNutch（hadoop，hbase系统）通过爬行提供。Solr使用本地文件系统作为索引存储。现在我必须解析并删除一些不好的文档，例如没有内容的文档等

我如何解析它。有没有办法使用hadoop mapreduce实现此目的？

一个简单的MR作业可以读取数据、过滤不良记录并将其索引到solr。但是solr索引在本地文件系统中，而不是在hdfs上？这很好。您可以将数据发送到solr进行索引。它不需要在HDFS上。只需指向正确的Solr url。hadoop集群和solr机器应该具有连接性。你能给我一个参考或例子吗？您是否找到一些解决方案，如果是，请更新答案？