Java ApacheNutch中是否有任何插件可以索引原始内容中的webHtml和PDF

Java ApacheNutch中是否有任何插件可以索引原始内容中的webHtml和PDF,java,solr,hbase,nutch,Java,Solr,Hbase,Nutch,ApacheNutch中是否有任何插件可以用原始内容索引webHtml和PDF。这样格式就不会丢失。我们还可以使用nutch抓取html文件中的内部pdf链接吗?对于pdf,没有现成的内容。Nutch使用Tika并尝试提取纯文本。您可以编写自己的插件(例如使用),并尝试提取有关文档的格式信息 请记住,PDF文件的原始内容没有多大意义。也许您可以尝试将PDF转换为HTML/XML,然后尝试理解其结构。也许像这样的图书馆对你有意义。不做实验就不可能知道 关于“内部链接”,您是指同一文档中的链接还是指

ApacheNutch中是否有任何插件可以用原始内容索引webHtml和PDF。这样格式就不会丢失。我们还可以使用nutch抓取html文件中的内部pdf链接吗?

对于pdf,没有现成的内容。Nutch使用Tika并尝试提取纯文本。您可以编写自己的插件(例如使用),并尝试提取有关文档的格式信息

请记住,PDF文件的原始内容没有多大意义。也许您可以尝试将PDF转换为HTML/XML,然后尝试理解其结构。也许像这样的图书馆对你有意义。不做实验就不可能知道

关于“内部链接”,您是指同一文档中的链接还是指向内容PDF中其他文档/网页的链接?如果您是指PDF中的内部链接,根据库的不同,您可能会这样做


请记住,PDF不是一种容易处理的格式。Tika/PDFBox项目在简化这项任务方面做了一项惊人的工作,即使投入了所有的时间/精力,也有一些边缘文件“有问题”。只需一个小警告请确保在名为plugin.includes的nutch_site.xml属性中包含 |解析-(text | html |pdf)|