Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/312.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 在Nutch 1.5中使用带有Tika解析器的HtmlParseFilter_Java_Nutch - Fatal编程技术网

Java 在Nutch 1.5中使用带有Tika解析器的HtmlParseFilter

Java 在Nutch 1.5中使用带有Tika解析器的HtmlParseFilter,java,nutch,Java,Nutch,我想做的是:编写一个Nutch插件,从爬网的每个页面接收解析数据。我知道HtmlParseFilter可以满足HTML页面的需要,但我还想处理其他类型的内容。当Tika解析PDF或Word文档时,它会将结果传递给我注册的HtmlParseFilter?如果没有,是否有其他方法可以拦截Tika的输出?HTMLPasseFilter处理所有内容类型(Tika可以处理)。在2.x分支中,它被重命名为ParseFilter,以更准确地反映它的功能

我想做的是:编写一个Nutch插件,从爬网的每个页面接收解析数据。我知道
HtmlParseFilter
可以满足HTML页面的需要,但我还想处理其他类型的内容。当Tika解析PDF或Word文档时,它会将结果传递给我注册的
HtmlParseFilter
?如果没有,是否有其他方法可以拦截Tika的输出?

HTMLPasseFilter处理所有内容类型(Tika可以处理)。在2.x分支中,它被重命名为ParseFilter,以更准确地反映它的功能