Java 在Nutch 1.5中使用带有Tika解析器的HtmlParseFilter_Java_Nutch

Java 在Nutch 1.5中使用带有Tika解析器的HtmlParseFilter

java

Java 在Nutch 1.5中使用带有Tika解析器的HtmlParseFilter,java,nutch,Java,Nutch,我想做的是：编写一个Nutch插件，从爬网的每个页面接收解析数据。我知道HtmlParseFilter可以满足HTML页面的需要，但我还想处理其他类型的内容。当Tika解析PDF或Word文档时，它会将结果传递给我注册的HtmlParseFilter？如果没有，是否有其他方法可以拦截Tika的输出？HTMLPasseFilter处理所有内容类型（Tika可以处理）。在2.x分支中，它被重命名为ParseFilter，以更准确地反映它的功能

我想做的是：编写一个Nutch插件，从爬网的每个页面接收解析数据。我知道

HtmlParseFilter

可以满足HTML页面的需要，但我还想处理其他类型的内容。当Tika解析PDF或Word文档时，它会将结果传递给我注册的

HtmlParseFilter

？如果没有，是否有其他方法可以拦截Tika的输出？

HTMLPasseFilter处理所有内容类型（Tika可以处理）。在2.x分支中，它被重命名为ParseFilter，以更准确地反映它的功能