Java 从Chrome分页符识别PDF中的隐藏元素

Java 从Chrome分页符识别PDF中的隐藏元素,java,pdf,pdfbox,Java,Pdf,Pdfbox,我有一个由Google Chrome创建的pdf文档。当通过PDFBox(Java)解析文本时,我发现页面之间有一个隐藏的文本块。虽然呈现模式是“FILL”,但我发现元素已离开页面。问题解决了 现在,我发现页面上也出现了另一个类似的元素,但坐标不能说明这一点。它跨在第二页的可见页边距内。它的y2=31.195312,最大高度为29.894833(字体大小=36)。计算得出的y1约为1,仍在页面上 文本位置obj显示了一些有趣的内部属性,但它们不是公共变量。我只有这个TextPosition对象(

我有一个由Google Chrome创建的pdf文档。当通过PDFBox(Java)解析文本时,我发现页面之间有一个隐藏的文本块。虽然呈现模式是“FILL”,但我发现元素已离开页面。问题解决了

现在,我发现页面上也出现了另一个类似的元素,但坐标不能说明这一点。它跨在第二页的可见页边距内。它的y2=31.195312,最大高度为29.894833(字体大小=36)。计算得出的y1约为1,仍在页面上

文本位置obj显示了一些有趣的内部属性,但它们不是公共变量。我只有这个TextPosition对象()和周围的上下文

我可以复制这个问题,但它需要我的特定文件。可以尝试使用内部分页符测试,但我还没有找到一个简单的测试。我在寻找某种边距,但到目前为止,这个.getCurrentPage()中的所有框都只显示普通页面高度,没有起始位置。另一种可能是,除了firstTextPos.getY()和firstTextPos.getHeight()之外,还有另一种查找坐标的方法

Mac预览版中的PDF:

文本在页面之间选择,并在第二页列出。在第一页列出的情况下,我能够按照上述方式处理问题

text位置对象私有变量:


>(y1<5),即,当y1=1处理情况,但不提供解释,也可能是不完整的。也不要,从页中的文本中重复空白中的文本,可以是PopyPad。你可以(也应该)编辑你的问题,以便它有你所有的想法。你也应该在你的问题中写一个问题,因为你不清楚你在问什么。如果要查找页面媒体框之外的元素,请这样说。顺便说一句,没有所谓的东西“之间的网页”。它总是属于一个特定的页面。就像@Tilman评论的那样。。。这里的问题是什么?然而,不管问题是什么,都有可能需要一份PDF样本。