Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/solr/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 使用pdfbox将PDF转换为lucene文档_Java_Solr_Lucene_Pdfbox_Apache Tika - Fatal编程技术网

Java 使用pdfbox将PDF转换为lucene文档

Java 使用pdfbox将PDF转换为lucene文档,java,solr,lucene,pdfbox,apache-tika,Java,Solr,Lucene,Pdfbox,Apache Tika,PDFbox提供了将pdf转换为lucene文档的类。它是否保留文档的格式。我所说的格式是指它是否存储有关位置、字体类型/大小和其他选项的详细信息。默认情况下,它将删除所有格式,仅提取文本内容并使其可搜索。可以搜索此内容,并且可以在索引外部维护原始PDF,并在找到命中时返回搜索结果。如果这是您的意图,那么从Lucene索引重建PDF可能不是最好的方法 PDFBox能够提取元数据,当然也可以用来索引格式/字体/等数据,如果您希望能够搜索此类内容。因此,如果我需要开发一个具有存储格式功能的类,我需要

PDFbox提供了将pdf转换为lucene文档的类。它是否保留文档的格式。我所说的格式是指它是否存储有关位置、字体类型/大小和其他选项的详细信息。

默认情况下,它将删除所有格式,仅提取文本内容并使其可搜索。可以搜索此内容,并且可以在索引外部维护原始PDF,并在找到命中时返回搜索结果。如果这是您的意图,那么从Lucene索引重建PDF可能不是最好的方法


PDFBox能够提取元数据,当然也可以用来索引格式/字体/等数据,如果您希望能够搜索此类内容。

因此,如果我需要开发一个具有存储格式功能的类,我需要从头开始开发一些内容,而我不能使用lucene,因为它不存储格式信息。我可以使用其他库,比如ApacheTika,它可以将文档文本转换为xhtml格式,但我不知道这是否提供了维护格式信息的功能,也提供了索引功能。同样,一种典型的存储模式是将其作为PDF保存,并带有获取存储在索引中的PDF的路径。将整个格式化的PDF存储在索引中当然是可能的,但通常并不理想。是否需要基于格式化元数据进行搜索?你想在这里完成什么?就Tika而言,是的,它是转换Lucene使用的数据的好选择(这就是它的初衷!)。我正在尝试构建一个java程序来比较两个pdf文件,并以某种突出显示的方式显示结果。格式化元数据?我以为元数据只是用来存储作者和其他东西的详细信息。我开始了另一个关于它的线程。哪个更好?itext还是pdfbox?我不清楚你想从这个或其他问题中实现什么。你想从PDF中提取什么,你想用它做什么?