Java 从Chrome分页符识别PDF中的隐藏元素_Java_Pdf_Pdfbox

Java 从Chrome分页符识别PDF中的隐藏元素

java pdf

Java 从Chrome分页符识别PDF中的隐藏元素,java,pdf,pdfbox,Java,Pdf,Pdfbox,我有一个由Google Chrome创建的pdf文档。当通过PDFBox（Java）解析文本时，我发现页面之间有一个隐藏的文本块。虽然呈现模式是“FILL”，但我发现元素已离开页面。问题解决了现在，我发现页面上也出现了另一个类似的元素，但坐标不能说明这一点。它跨在第二页的可见页边距内。它的y2=31.195312，最大高度为29.894833（字体大小=36）。计算得出的y1约为1，仍在页面上文本位置obj显示了一些有趣的内部属性，但它们不是公共变量。我只有这个TextPosition对象（

我有一个由Google Chrome创建的pdf文档。当通过PDFBox（Java）解析文本时，我发现页面之间有一个隐藏的文本块。虽然呈现模式是“FILL”，但我发现元素已离开页面。问题解决了

现在，我发现页面上也出现了另一个类似的元素，但坐标不能说明这一点。它跨在第二页的可见页边距内。它的y2=31.195312，最大高度为29.894833（字体大小=36）。计算得出的y1约为1，仍在页面上

文本位置obj显示了一些有趣的内部属性，但它们不是公共变量。我只有这个TextPosition对象（）和周围的上下文

我可以复制这个问题，但它需要我的特定文件。可以尝试使用内部分页符测试，但我还没有找到一个简单的测试。我在寻找某种边距，但到目前为止，这个.getCurrentPage（）中的所有框都只显示普通页面高度，没有起始位置。另一种可能是，除了firstTextPos.getY（）和firstTextPos.getHeight（）之外，还有另一种查找坐标的方法

Mac预览版中的PDF：

文本在页面之间选择，并在第二页列出。在第一页列出的情况下，我能够按照上述方式处理问题

text位置对象私有变量：

>（y1＜5），即，当y1＝1处理情况，但不提供解释，也可能是不完整的。也不要，从页中的文本中重复空白中的文本，可以是PopyPad。你可以（也应该）编辑你的问题，以便它有你所有的想法。你也应该在你的问题中写一个问题，因为你不清楚你在问什么。如果要查找页面媒体框之外的元素，请这样说。顺便说一句，没有所谓的东西“之间的网页”。它总是属于一个特定的页面。就像@Tilman评论的那样。。。这里的问题是什么？然而，不管问题是什么，都有可能需要一份PDF样本。