使用apachenutch&；基于模板的索引/提取；索尔_Apache_Solr_Nutch

使用apachenutch&；基于模板的索引/提取；索尔

apache solr

使用apachenutch&；基于模板的索引/提取；索尔,apache,solr,nutch,Apache,Solr,Nutch,我是Apache Nutch/Solr系列产品的新手。我已经用Solr（4.3）安装了basic Nutch（1.6），并成功地爬网了一个站点，Solr也为我的爬网数据编制了索引现在我的问题是，如果我抓取一个Web博客，比如用户可以发表评论（EG）的地方，我如何确保NUTI把用户的评论和主博客看作单独的文档，所以当我搜索关键字时，它将主博客和评论作为独立的结果返回给我，之后我也可以使用这些数据进行情感分析。p> 我将非常感谢这里的任何帮助谢谢。 Tony您可以使用xpath过滤器插件将已爬网

我是Apache Nutch/Solr系列产品的新手。我已经用Solr（4.3）安装了basic Nutch（1.6），并成功地爬网了一个站点，Solr也为我的爬网数据编制了索引

现在我的问题是，如果我抓取一个Web博客，比如用户可以发表评论（EG）的地方，我如何确保NUTI把用户的评论和主博客看作单独的文档，所以当我搜索关键字时，它将主博客和评论作为独立的结果返回给我，之后我也可以使用这些数据进行情感分析。p> 我将非常感谢这里的任何帮助

谢谢。

Tony

您可以使用xpath过滤器插件将已爬网的内容分隔为两个不同的字段。

class=“post”中的内容将转到字段A，class=“commentlist”中的内容将转到字段B

在搜索页面逻辑中，您在字段A上查询Solr，因此您的搜索结果仅来自您的博客文章，而不是评论

注释数据仍然保存在文档中，但不可搜索