使用apachenutch&;基于模板的索引/提取;索尔

使用apachenutch&;基于模板的索引/提取;索尔,apache,solr,nutch,Apache,Solr,Nutch,我是Apache Nutch/Solr系列产品的新手。我已经用Solr(4.3)安装了basic Nutch(1.6),并成功地爬网了一个站点,Solr也为我的爬网数据编制了索引 现在我的问题是,如果我抓取一个Web博客,比如用户可以发表评论(EG)的地方,我如何确保NUTI把用户的评论和主博客看作单独的文档,所以当我搜索关键字时,它将主博客和评论作为独立的结果返回给我,之后我也可以使用这些数据进行情感分析。p> 我将非常感谢这里的任何帮助 谢谢。 Tony您可以使用xpath过滤器插件将已爬网

我是Apache Nutch/Solr系列产品的新手。我已经用Solr(4.3)安装了basic Nutch(1.6),并成功地爬网了一个站点,Solr也为我的爬网数据编制了索引

现在我的问题是,如果我抓取一个Web博客,比如用户可以发表评论(EG)的地方,我如何确保NUTI把用户的评论和主博客看作单独的文档,所以当我搜索关键字时,它将主博客和评论作为独立的结果返回给我,之后我也可以使用这些数据进行情感分析。p> 我将非常感谢这里的任何帮助

谢谢。
Tony

您可以使用xpath过滤器插件将已爬网的内容分隔为两个不同的字段。

class=“post”中的内容将转到字段A,class=“commentlist”中的内容将转到字段B

在搜索页面逻辑中,您在字段A上查询Solr,因此您的搜索结果仅来自您的博客文章,而不是评论

注释数据仍然保存在文档中,但不可搜索