Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/variables/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Parsing 如何使用Nutch 1.6抓取PDF文档?_Parsing_Pdf_Nutch - Fatal编程技术网

Parsing 如何使用Nutch 1.6抓取PDF文档?

Parsing 如何使用Nutch 1.6抓取PDF文档?,parsing,pdf,nutch,Parsing,Pdf,Nutch,我使用的是ApacheNutch1.6,我的要求是将PDF文档作为.PDF文件本身抓取,但我无法将PDF文件作为文本本身抓取。 在我的nutch-site.xml中,我单独给出了http.agent.name、http.robots.name、http.proxy.host..是否需要添加任何内容。。。 在我的插件中,我只有parse tika,是否有任何需要添加的内容…如果有,请向我推荐链接 我可以爬网.html,但对于.pdf文件,没有解析文本 错误: parse.ParseUtil-无法成

我使用的是ApacheNutch1.6,我的要求是将PDF文档作为.PDF文件本身抓取,但我无法将PDF文件作为文本本身抓取。 在我的nutch-site.xml中,我单独给出了http.agent.name、http.robots.name、http.proxy.host..是否需要添加任何内容。。。 在我的插件中,我只有parse tika,是否有任何需要添加的内容…如果有,请向我推荐链接

我可以爬网.html,但对于.pdf文件,没有解析文本

错误: parse.ParseUtil-无法成功解析类型为application/pdf的内容 parse.ParseSegment-错误解析::失败(2200):org.apache.nutch.parse.ParseException:无法成功解析内容


提前感谢….

据我所知…检查pdpage.class(该类的路径:pdfbox-app-1.8.2/org/apache/pdfbox/pdmodel/pdpage.class)是否包含您的pdfbox。这是您的问题所必需的。

parse tika/pdfbox-1.7.0/org/apache/pdfbox/pdmodel/PDPage.class…我的pdfbox位于此路径中,但在我的日志中………带有org.apache.nutch.parse.tika。TikaParser@123653java.util.concurrent.ExecutionException:java.lang.NoClassDefFoundError:无法初始化类org.apache.pdfbox.pdmodel.PDPageparse.ParserFactory-解析插件:[org.apache.nutch.parse.tika.TikaParser]是通过plugin.includes系统属性启用的,所有这些插件都声称支持content-type application/pdf,但它们没有映射到parse-plugins.xml文件中……我认为这就是问题所在,需要纠正。。。