Python 可搜索的pdf到text/pdf,其中印地语字体与字形正确映射

Python 可搜索的pdf到text/pdf,其中印地语字体与字形正确映射,python,pdf,fonts,glyph,Python,Pdf,Fonts,Glyph,我有一个可搜索的pdf[语言:印地语]示例: 我有它的字体文件下载链接() 我想集成这个字体,如果字形被破坏,我想正确地映射它 我已经成功地获得了glyph文件,其中包含如下行: (Abc.glf) 131 | 0xc1 | Aacute | 00c1 | 400B023412105002502120526002B35012B35| pdf有devnagri脚本,我无法进一步进行任何改进。任何帮助都会有帮助 我使用的语言是python 2.7,总体问题是什么?PDF看起来不错,嵌入了子集字体,看

我有一个可搜索的pdf[语言:印地语]示例:

我有它的字体文件下载链接()

我想集成这个字体,如果字形被破坏,我想正确地映射它

我已经成功地获得了glyph文件,其中包含如下行:

(Abc.glf) 131 | 0xc1 | Aacute | 00c1 | 400B023412105002502120526002B35012B35|

pdf有devnagri脚本,我无法进一步进行任何改进。任何帮助都会有帮助


我使用的语言是python 2.7,总体问题是什么?PDF看起来不错,嵌入了子集字体,看起来是正确的unicode映射(尽管我看不懂印地语)。还有,这是唯一的文件,还是你有很多这样的文件?谁制作的?pdf中的起始词是िनवार्चक 但当我复制粘贴或做pdftotext时ननरररचक , 主要是因为存在错误的映射或映射不存在。我想修复pdf,我该怎么做…谁创建了pdf?你有这个吗,或者很多类似的?这些问题最好在创建时解决。“事后尝试修复非常困难。@Ryan这让人想起了中解释的问题。本质上是一张图尼科德地图,部分不正确。是的,雅利安人,你应该看到@mkl提到的答案。这可能适用于您的文件。如果没有,那么您需要在这里发布文件以获得进一步的帮助。