Firefox中缺少OCR PDF漏洞_Pdf_Ocr_Tesseract_Pdf.js

Firefox中缺少OCR PDF漏洞

pdf

Firefox中缺少OCR PDF漏洞,pdf,ocr,tesseract,pdf.js,Pdf,Ocr,Tesseract,Pdf.js,我对tesseract创建的可搜索PDF有问题。它不是生成的，我根据自己的方式在C++项目中按照GITHUB的例子来做。但是，当我在Firefox中打开PDF文档时，每个单词之间都会出现空白，当然不是。有人知道为什么吗？我什么也找不到。我在Ubuntu18.01下使用TesseractV4（我在Ubuntu17.xx下使用TesseractV3.x时遇到了同样的问题） Edit1:示例PDF-如果您可以添加一些该问题的示例，那就太好了。我看不到你的PDF文档。另外，Firefox的版本也会很有

我对tesseract创建的可搜索PDF有问题。它不是生成的，我根据自己的方式在C++项目中按照GITHUB的例子来做。但是，当我在Firefox中打开PDF文档时，每个单词之间都会出现空白，当然不是。有人知道为什么吗？我什么也找不到。我在Ubuntu18.01下使用TesseractV4（我在Ubuntu17.xx下使用TesseractV3.x时遇到了同样的问题）

Edit1:示例PDF-

如果您可以添加一些该问题的示例，那就太好了。我看不到你的PDF文档。另外，Firefox的版本也会很有帮助。@DanWilson我添加了PDF文档的示例，Firefox的版本是60.0.2（64位）。我能说的最好的情况是Firefox中的PDF渲染器有。不过，PDF中也有一些问题。例如，字体的ToUnicode映射无效，其唯一的

beginfrange

条目是

，该条目无效，至少对于PDF ToUnicode CMAP无效。因此，tesseract也是罪魁祸首。@mkl非常感谢，我将重点介绍pdf结构的这一部分。顺便说一句，你能给我推荐一些网站/书籍/教程吗？