Java 如何将剥离文本位置重新映射到pdf文档位置_Java_Pdf_Pdfbox

Java 如何将剥离文本位置重新映射到pdf文档位置

java pdf

Java 如何将剥离文本位置重新映射到pdf文档位置,java,pdf,pdfbox,Java,Pdf,Pdfbox,我使用pdfbox的PDFTextStripper从两个PDF文件中提取纯文本，然后使用一些NLP算法进行比较。该算法返回普通文本中常见段落的位置我想做的是突出显示PDF中的常见段落。问题是我在纯文本中只有位置，但在PDF中没有相应的位置。使用PDFTextStripper此映射将丢失在从PDF中剥离文本时，是否有任何解决方案/常用方法来保留从纯文本位置到PDF文档位置的映射？如果支持此功能，我也会接受使用不同的PDF库，但我必须使用Java。基本上，您必须重写writePage方法，该方法

我使用pdfbox的

PDFTextStripper

从两个PDF文件中提取纯文本，然后使用一些NLP算法进行比较。该算法返回普通文本中常见段落的位置

我想做的是突出显示PDF中的常见段落。问题是我在纯文本中只有位置，但在PDF中没有相应的位置。使用

PDFTextStripper

此映射将丢失

在从PDF中剥离文本时，是否有任何解决方案/常用方法来保留从纯文本位置到PDF文档位置的映射？如果支持此功能，我也会接受使用不同的PDF库，但我必须使用Java。

基本上，您必须重写

writePage

方法，该方法从收集的

TextPosition

对象中以有意义的顺序提取文本并将其写入输出。您的覆盖将另外将所需的定位信息写入同一输出或辅助输出流。这是唯一的方法吗？我想知道如何在所有可用的PDF阅读器中实现搜索功能。因为它们会标记搜索词的所有出现，对吗？这是唯一的方法吗没有。但是考虑到你已经做过的事情，最简单的方法是。我想知道如何在所有可用的PDF阅读器中实现搜索功能…-如果为PDF查看器实现文本搜索框架，那么很明显，首先要保留定位信息。另一方面，如果为没有UI组件的PDF库实现文本搜索框架，则不必保留定位信息。毕竟它很容易添加。