PDF内容流操作符的顺序与此相反。通过使用PDFBOX,我们如何重新订购?

PDF内容流操作符的顺序与此相反。通过使用PDFBOX,我们如何重新订购?,pdf,pdfbox,Pdf,Pdfbox,有些PDF是由ocrmypdf库在hocr模式下生成的 ocrmypdf.ocr("input.pdf", "output.pdf",pdf_renderer='hocr', keep_temporary_files=True) 所有这些pdf的内容流的顺序都是相反的。页面最后一行位于内容流的第一行,如下图所示。 因此,当我标记此pdf时,jaws会首先读取每个段落标记的最后一行。更改顺序是可行的。但正确的顺序是什么?如果你碰巧有多列文本,你不能简

有些PDF是由ocrmypdf库在hocr模式下生成的

ocrmypdf.ocr("input.pdf", "output.pdf",pdf_renderer='hocr', keep_temporary_files=True) 
所有这些pdf的内容流的顺序都是相反的。页面最后一行位于内容流的第一行,如下图所示。


因此,当我标记此pdf时,jaws会首先读取每个段落标记的最后一行。

更改顺序是可行的。但正确的顺序是什么?如果你碰巧有多列文本,你不能简单地从上到下、从左到右排序……当有三列或两列pdf时,我们必须关注从上到下,不必担心从左到右。在内容流中我们应该首先遇到的第一行文本内容流。