Firefox中缺少OCR PDF漏洞

Firefox中缺少OCR PDF漏洞,pdf,ocr,tesseract,pdf.js,Pdf,Ocr,Tesseract,Pdf.js,我对tesseract创建的可搜索PDF有问题。它不是生成的,我根据自己的方式在C++项目中按照GITHUB的例子来做。 但是,当我在Firefox中打开PDF文档时,每个单词之间都会出现空白,当然不是。有人知道为什么吗?我什么也找不到。我在Ubuntu18.01下使用TesseractV4(我在Ubuntu17.xx下使用TesseractV3.x时遇到了同样的问题) Edit1:示例PDF-如果您可以添加一些该问题的示例,那就太好了。我看不到你的PDF文档。另外,Firefox的版本也会很有

我对tesseract创建的可搜索PDF有问题。它不是生成的,我根据自己的方式在C++项目中按照GITHUB的例子来做。 但是,当我在Firefox中打开PDF文档时,每个单词之间都会出现空白,当然不是。有人知道为什么吗?我什么也找不到。我在Ubuntu18.01下使用TesseractV4(我在Ubuntu17.xx下使用TesseractV3.x时遇到了同样的问题)


Edit1:示例PDF-

如果您可以添加一些该问题的示例,那就太好了。我看不到你的PDF文档。另外,Firefox的版本也会很有帮助。@DanWilson我添加了PDF文档的示例,Firefox的版本是60.0.2(64位)。我能说的最好的情况是Firefox中的PDF渲染器有。不过,PDF中也有一些问题。例如,字体的ToUnicode映射无效,其唯一的
beginfrange
条目是
,该条目无效,至少对于PDF ToUnicode CMAP无效。因此,tesseract也是罪魁祸首。@mkl非常感谢,我将重点介绍pdf结构的这一部分。顺便说一句,你能给我推荐一些网站/书籍/教程吗?