Java 如何将剥离文本位置重新映射到pdf文档位置

Java 如何将剥离文本位置重新映射到pdf文档位置,java,pdf,pdfbox,Java,Pdf,Pdfbox,我使用pdfbox的PDFTextStripper从两个PDF文件中提取纯文本,然后使用一些NLP算法进行比较。该算法返回普通文本中常见段落的位置 我想做的是突出显示PDF中的常见段落。问题是我在纯文本中只有位置,但在PDF中没有相应的位置。使用PDFTextStripper此映射将丢失 在从PDF中剥离文本时,是否有任何解决方案/常用方法来保留从纯文本位置到PDF文档位置的映射?如果支持此功能,我也会接受使用不同的PDF库,但我必须使用Java。基本上,您必须重写writePage方法,该方法

我使用pdfbox的
PDFTextStripper
从两个PDF文件中提取纯文本,然后使用一些NLP算法进行比较。该算法返回普通文本中常见段落的位置

我想做的是突出显示PDF中的常见段落。问题是我在纯文本中只有位置,但在PDF中没有相应的位置。使用
PDFTextStripper
此映射将丢失


在从PDF中剥离文本时,是否有任何解决方案/常用方法来保留从纯文本位置到PDF文档位置的映射?如果支持此功能,我也会接受使用不同的PDF库,但我必须使用Java。

基本上,您必须重写
writePage
方法,该方法从收集的
TextPosition
对象中以有意义的顺序提取文本并将其写入输出。您的覆盖将另外将所需的定位信息写入同一输出或辅助输出流。这是唯一的方法吗?我想知道如何在所有可用的PDF阅读器中实现搜索功能。因为它们会标记搜索词的所有出现,对吗?这是唯一的方法吗没有。但是考虑到你已经做过的事情,最简单的方法是。我想知道如何在所有可用的PDF阅读器中实现搜索功能…-如果为PDF查看器实现文本搜索框架,那么很明显,首先要保留定位信息。另一方面,如果为没有UI组件的PDF库实现文本搜索框架,则不必保留定位信息。毕竟它很容易添加。