Java 使用pdfbox将PDF转换为lucene文档_Java_Solr_Lucene_Pdfbox_Apache Tika

Java 使用pdfbox将PDF转换为lucene文档

java solr lucene

Java 使用pdfbox将PDF转换为lucene文档,java,solr,lucene,pdfbox,apache-tika,Java,Solr,Lucene,Pdfbox,Apache Tika,PDFbox提供了将pdf转换为lucene文档的类。它是否保留文档的格式。我所说的格式是指它是否存储有关位置、字体类型/大小和其他选项的详细信息。默认情况下，它将删除所有格式，仅提取文本内容并使其可搜索。可以搜索此内容，并且可以在索引外部维护原始PDF，并在找到命中时返回搜索结果。如果这是您的意图，那么从Lucene索引重建PDF可能不是最好的方法 PDFBox能够提取元数据，当然也可以用来索引格式/字体/等数据，如果您希望能够搜索此类内容。因此，如果我需要开发一个具有存储格式功能的类，我需要

PDFbox提供了将pdf转换为lucene文档的类。它是否保留文档的格式。我所说的格式是指它是否存储有关位置、字体类型/大小和其他选项的详细信息。

默认情况下，它将删除所有格式，仅提取文本内容并使其可搜索。可以搜索此内容，并且可以在索引外部维护原始PDF，并在找到命中时返回搜索结果。如果这是您的意图，那么从Lucene索引重建PDF可能不是最好的方法

PDFBox能够提取元数据，当然也可以用来索引格式/字体/等数据，如果您希望能够搜索此类内容。

因此，如果我需要开发一个具有存储格式功能的类，我需要从头开始开发一些内容，而我不能使用lucene，因为它不存储格式信息。我可以使用其他库，比如ApacheTika，它可以将文档文本转换为xhtml格式，但我不知道这是否提供了维护格式信息的功能，也提供了索引功能。同样，一种典型的存储模式是将其作为PDF保存，并带有获取存储在索引中的PDF的路径。将整个格式化的PDF存储在索引中当然是可能的，但通常并不理想。是否需要基于格式化元数据进行搜索？你想在这里完成什么？就Tika而言，是的，它是转换Lucene使用的数据的好选择（这就是它的初衷！）。我正在尝试构建一个java程序来比较两个pdf文件，并以某种突出显示的方式显示结果。格式化元数据？我以为元数据只是用来存储作者和其他东西的详细信息。我开始了另一个关于它的线程。哪个更好？itext还是pdfbox？我不清楚你想从这个或其他问题中实现什么。你想从PDF中提取什么，你想用它做什么？