Java Nutch-解析自定义HTML元素

Java Nutch-解析自定义HTML元素,java,solr,nutch,Java,Solr,Nutch,我正在尝试爬网和索引(使用Solr)我正在爬网的页面的特定部分 到目前为止,使用所有默认配置,我正在对我想要的页面进行爬网和索引,但在Solr中,我只有两个字段,标题和内容,其中包含我页面的文本,但它并不完全是我想要的文本 我想要实现的是拥有一个包含特定div内容的新字段 我要索引的内容 到目前为止,我所发现的似乎是我想要的 在按照说明操作之后,我无法解析数据,因为我遇到了以下错误,我不明白出了什么问题 我用的是Nutch1.15 java.lang.Exception: java.lang.

我正在尝试爬网和索引(使用Solr)我正在爬网的页面的特定部分

到目前为止,使用所有默认配置,我正在对我想要的页面进行爬网和索引,但在Solr中,我只有两个字段,标题和内容,其中包含我页面的文本,但它并不完全是我想要的文本

我想要实现的是拥有一个包含特定div内容的新字段

我要索引的内容

到目前为止,我所发现的似乎是我想要的

在按照说明操作之后,我无法解析数据,因为我遇到了以下错误,我不明白出了什么问题

我用的是Nutch1.15

java.lang.Exception: java.lang.LinkageError: loader constraint violation: when resolving method "org.slf4j.impl.StaticLoggerBinder.getLoggerFactory()Lorg/slf4j/ILoggerFactory;" the class loader (instance of org/apache/nutch/plugin/PluginClassLoader) of the current class, org/slf4j/LoggerFactory, and the class loader (instance of sun/misc/Launcher$AppClassLoader) for the method's defining class, org/slf4j/impl/StaticLoggerBinder, have different Class objects for the type org/slf4j/ILoggerFactory used in the signature
    at org.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:462)
    at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:522)

似乎使用的slf4j api是一个旧版本,与Nutch使用的版本不匹配。至少,这是我所理解的

为了解决这个问题,我只是在
/plugins/extractor/plugin.xml


删除此行:

似乎使用的slf4j api是旧版本,与Nutch使用的版本不匹配。至少,这是我所理解的

为了解决这个问题,我只是在
/plugins/extractor/plugin.xml


删除此行:

您好。我也面临同样的问题。但是注释掉这句话是行不通的。它为我提供了空指针异常<代码>线程“main”java.lang.NullPointerException中的异常位于org.apache.nutch.indexingfilter.process中的ir.co.bayan.simorq.zal.extractor.nutch.ExtractorIndexingFilter.filter(ExtractorIndexingFilter.java:71)处的org.apache.nutch.IndexingFilters.filters(IndexingFilters.java:52)(IndexingFiltersChecker.java:248)你遇到过这个问题吗?@gregory wullimannHi。我也面临着同样的问题。但是注释掉
这一行行不通。它给了我空指针异常。
线程“main”中的异常java.lang.NullPointerException位于ir.co.bayan.simorq.zal.extractor.nutch.ExtractorIndexingFilter.filter(ExtractorIndexingFilter.java:71)org.apache.nutch.IndexingFilters.IndexingFilters.filter(IndexingFilters.java:52)org.apache.nutch.IndexingFilters.IndexingFilters.process(IndexingFilters.java:248)
你面对过这个问题吗?@gregory wullimann