Parsing 如何使用Nutch 1.6抓取PDF文档？_Parsing_Pdf_Nutch

Parsing 如何使用Nutch 1.6抓取PDF文档？

parsing pdf

Parsing 如何使用Nutch 1.6抓取PDF文档？,parsing,pdf,nutch,Parsing,Pdf,Nutch,我使用的是ApacheNutch1.6，我的要求是将PDF文档作为.PDF文件本身抓取，但我无法将PDF文件作为文本本身抓取。在我的nutch-site.xml中，我单独给出了http.agent.name、http.robots.name、http.proxy.host..是否需要添加任何内容。。。在我的插件中，我只有parse tika，是否有任何需要添加的内容…如果有，请向我推荐链接我可以爬网.html，但对于.pdf文件，没有解析文本错误： parse.ParseUtil-无法成

我使用的是ApacheNutch1.6，我的要求是将PDF文档作为.PDF文件本身抓取，但我无法将PDF文件作为文本本身抓取。在我的nutch-site.xml中，我单独给出了http.agent.name、http.robots.name、http.proxy.host..是否需要添加任何内容。。。在我的插件中，我只有parse tika，是否有任何需要添加的内容…如果有，请向我推荐链接

我可以爬网.html，但对于.pdf文件，没有解析文本

错误： parse.ParseUtil-无法成功解析类型为application/pdf的内容 parse.ParseSegment-错误解析：：失败（2200）：org.apache.nutch.parse.ParseException:无法成功解析内容

提前感谢….

据我所知…检查pdpage.class（该类的路径：pdfbox-app-1.8.2/org/apache/pdfbox/pdmodel/pdpage.class）是否包含您的pdfbox。这是您的问题所必需的。

parse tika/pdfbox-1.7.0/org/apache/pdfbox/pdmodel/PDPage.class…我的pdfbox位于此路径中，但在我的日志中………带有org.apache.nutch.parse.tika。TikaParser@123653java.util.concurrent.ExecutionException:java.lang.NoClassDefFoundError:无法初始化类org.apache.pdfbox.pdmodel.PDPageparse.ParserFactory-解析插件：[org.apache.nutch.parse.tika.TikaParser]是通过plugin.includes系统属性启用的，所有这些插件都声称支持content-type application/pdf，但它们没有映射到parse-plugins.xml文件中……我认为这就是问题所在，需要纠正。。。