覆盖PDF中的ToUnicode映射流_Pdf_Unicode_Fonts_Pdf Extraction

覆盖PDF中的ToUnicode映射流

pdf unicode fonts

覆盖PDF中的ToUnicode映射流,pdf,unicode,fonts,pdf-extraction,Pdf,Unicode,Fonts,Pdf Extraction,总之，mkl为pnj的困境提供了一个极好的答案。不幸的是，我们面临着一个非常类似的问题（使用不同的字体，称为Devanagari字体），它完美地概括了非OCR解决方案的步骤，但我对PDF及其结构的理解存在巨大的缺陷。因此，如果能够在以下方面给出一些指导，那将是非常好的：使用通用PDF库覆盖此PDF中的ToUnicode映射，该库具有针对您选择的编程语言的低级对象访问API：我可以使用Python中的哪个库来执行此操作？遍历PDF对象结构，查找ToUnicode映射流，替换其内容，并保存结果。

总之，mkl为pnj的困境提供了一个极好的答案。不幸的是，我们面临着一个非常类似的问题（使用不同的字体，称为Devanagari字体），它完美地概括了非OCR解决方案的步骤，但我对PDF及其结构的理解存在巨大的缺陷。因此，如果能够在以下方面给出一些指导，那将是非常好的：

使用通用PDF库覆盖此PDF中的ToUnicode映射，该库具有针对您选择的编程语言的低级对象访问API：我可以使用Python中的哪个库来执行此操作？

遍历PDF对象结构，查找ToUnicode映射流，替换其内容，并保存结果。是否有一些示例可以让我了解如何对任何字体执行此操作？

我希望这个不要太宽。谢谢大家!