Java 从Chrome分页符识别PDF中的隐藏元素
我有一个由Google Chrome创建的pdf文档。当通过PDFBox(Java)解析文本时,我发现页面之间有一个隐藏的文本块。虽然呈现模式是“FILL”,但我发现元素已离开页面。问题解决了 现在,我发现页面上也出现了另一个类似的元素,但坐标不能说明这一点。它跨在第二页的可见页边距内。它的y2=31.195312,最大高度为29.894833(字体大小=36)。计算得出的y1约为1,仍在页面上 文本位置obj显示了一些有趣的内部属性,但它们不是公共变量。我只有这个TextPosition对象()和周围的上下文 我可以复制这个问题,但它需要我的特定文件。可以尝试使用内部分页符测试,但我还没有找到一个简单的测试。我在寻找某种边距,但到目前为止,这个.getCurrentPage()中的所有框都只显示普通页面高度,没有起始位置。另一种可能是,除了firstTextPos.getY()和firstTextPos.getHeight()之外,还有另一种查找坐标的方法 Mac预览版中的PDF: 文本在页面之间选择,并在第二页列出。在第一页列出的情况下,我能够按照上述方式处理问题 text位置对象私有变量:Java 从Chrome分页符识别PDF中的隐藏元素,java,pdf,pdfbox,Java,Pdf,Pdfbox,我有一个由Google Chrome创建的pdf文档。当通过PDFBox(Java)解析文本时,我发现页面之间有一个隐藏的文本块。虽然呈现模式是“FILL”,但我发现元素已离开页面。问题解决了 现在,我发现页面上也出现了另一个类似的元素,但坐标不能说明这一点。它跨在第二页的可见页边距内。它的y2=31.195312,最大高度为29.894833(字体大小=36)。计算得出的y1约为1,仍在页面上 文本位置obj显示了一些有趣的内部属性,但它们不是公共变量。我只有这个TextPosition对象(