Java ApacheNutch中是否有任何插件可以索引原始内容中的webHtml和PDF_Java_Solr_Hbase_Nutch

Java ApacheNutch中是否有任何插件可以索引原始内容中的webHtml和PDF

java solr hbase

Java ApacheNutch中是否有任何插件可以索引原始内容中的webHtml和PDF,java,solr,hbase,nutch,Java,Solr,Hbase,Nutch,ApacheNutch中是否有任何插件可以用原始内容索引webHtml和PDF。这样格式就不会丢失。我们还可以使用nutch抓取html文件中的内部pdf链接吗？对于pdf，没有现成的内容。Nutch使用Tika并尝试提取纯文本。您可以编写自己的插件（例如使用），并尝试提取有关文档的格式信息请记住，PDF文件的原始内容没有多大意义。也许您可以尝试将PDF转换为HTML/XML，然后尝试理解其结构。也许像这样的图书馆对你有意义。不做实验就不可能知道关于“内部链接”，您是指同一文档中的链接还是指

ApacheNutch中是否有任何插件可以用原始内容索引webHtml和PDF。这样格式就不会丢失。我们还可以使用nutch抓取html文件中的内部pdf链接吗？

对于pdf，没有现成的内容。Nutch使用Tika并尝试提取纯文本。您可以编写自己的插件（例如使用），并尝试提取有关文档的格式信息

请记住，PDF文件的原始内容没有多大意义。也许您可以尝试将PDF转换为HTML/XML，然后尝试理解其结构。也许像这样的图书馆对你有意义。不做实验就不可能知道

关于“内部链接”，您是指同一文档中的链接还是指向内容PDF中其他文档/网页的链接？如果您是指PDF中的内部链接，根据库的不同，您可能会这样做

请记住，PDF不是一种容易处理的格式。Tika/PDFBox项目在简化这项任务方面做了一项惊人的工作，即使投入了所有的时间/精力，也有一些边缘文件“有问题”。只需一个小警告请确保在名为plugin.includes的nutch_site.xml属性中包含 |解析-（text | html |pdf）|