Web crawler Apache Nutch 2.3.1 opic评分过滤器不工作

Web crawler Apache Nutch 2.3.1 opic评分过滤器不工作,web-crawler,nutch,scoring,nutch2,Web Crawler,Nutch,Scoring,Nutch2,我已经在一个小型集群上为Nutch 2.3.1配置了完整的Hadoop/Hbase生态系统。我对Nutch中使用的评分算法很好奇。我在Nutch中找到并使用了opic评分过滤器。为了找到它的影响,我在Nutch中的不同步骤(dbupdate和generate阶段)中按照Nutch的指导进行了检查。但我发现,无论我如何运行迭代和获取多少文档,每个文档的得分始终保持为零。opic实现中是否存在一些问题,或者我缺少一些配置 我注意到,包含现金的\u csh\u字段在回执阶段从Hbase中的相应表中删除

我已经在一个小型集群上为Nutch 2.3.1配置了完整的Hadoop/Hbase生态系统。我对Nutch中使用的评分算法很好奇。我在Nutch中找到并使用了opic评分过滤器。为了找到它的影响,我在Nutch中的不同步骤(dbupdate和generate阶段)中按照Nutch的指导进行了检查。但我发现,无论我如何运行迭代和获取多少文档,每个文档的得分始终保持为零。opic实现中是否存在一些问题,或者我缺少一些配置


我注意到,包含现金的
\u csh\u
字段在回执阶段从Hbase中的相应表中删除。

我通过将更改放在
OPICScoringFilter.java中解决了这个问题

src/plugin/scoring-opic/src/java/org/apache/nutch/scoring/opic/OPICScoringFilter.java

我把它作为UTF8放在标记中

-    row.getMetadata().put(CASH_KEY, ByteBuffer.wrap(Bytes.toBytes(score)));
+    row.getMarkers().put(CASH_KEY, new Utf8(Double.toString(score)));