覆盖PDF中的ToUnicode映射流

覆盖PDF中的ToUnicode映射流,pdf,unicode,fonts,pdf-extraction,Pdf,Unicode,Fonts,Pdf Extraction,总之,mkl为pnj的困境提供了一个极好的答案。不幸的是,我们面临着一个非常类似的问题(使用不同的字体,称为Devanagari字体),它完美地概括了非OCR解决方案的步骤,但我对PDF及其结构的理解存在巨大的缺陷。因此,如果能够在以下方面给出一些指导,那将是非常好的: 使用通用PDF库覆盖此PDF中的ToUnicode映射,该库具有针对您选择的编程语言的低级对象访问API:我可以使用Python中的哪个库来执行此操作? 遍历PDF对象结构,查找ToUnicode映射流,替换其内容,并保存结果。

总之,mkl为pnj的困境提供了一个极好的答案。不幸的是,我们面临着一个非常类似的问题(使用不同的字体,称为Devanagari字体),它完美地概括了非OCR解决方案的步骤,但我对PDF及其结构的理解存在巨大的缺陷。因此,如果能够在以下方面给出一些指导,那将是非常好的:

  • 使用通用PDF库覆盖此PDF中的ToUnicode映射,该库具有针对您选择的编程语言的低级对象访问API:我可以使用Python中的哪个库来执行此操作?
  • 遍历PDF对象结构,查找ToUnicode映射流,替换其内容,并保存结果。是否有一些示例可以让我了解如何对任何字体执行此操作?
  • 我希望这个不要太宽。谢谢大家!