无法从pdf复制准确的印地语内容

无法从pdf复制准确的印地语内容,pdf,hindi,Pdf,Hindi,我无法从pdf文件复制印地语内容。 当我试图复制/粘贴该内容时,它会更改为不同的印地语字符 范例- 原件-निर्वाचक 粘贴后-ननरररचक 它是这样显示的 任何人都可以帮我弄到印地语的确切字符 此问题与中讨论的问题类似,并且的外观也提醒了: 简而言之 您的文档本身提供了一些信息,例如“符号”निर्वाचक" 在标题行中表示“文本”ननरररचक“。您应该向文档的来源询问一个文档版本,该版本的字体信息不会产生误导。如果不可能,您应该使用OCR 详细地 第一页的顶行由页面内容流中的以下操

我无法从pdf文件复制印地语内容。 当我试图复制/粘贴该内容时,它会更改为不同的印地语字符

范例-

原件-निर्वाचक

粘贴后-ननरररचक

它是这样显示的


任何人都可以帮我弄到印地语的确切字符

此问题与中讨论的问题类似,并且的外观也提醒了:

简而言之 您的文档本身提供了一些信息,例如“符号”निर्वाचक" 在标题行中表示“文本”ननरररचक“。您应该向文档的来源询问一个文档版本,该版本的字体信息不会产生误导。如果不可能,您应该使用OCR

详细地 第一页的顶行由页面内容流中的以下操作生成:

/9 239 Tf
( !"#$%&) Tj 
第一行选择大小为239的名为9的字体(页面开头的操作会缩小所有内容)。第二行打印字形。这些字形在括号中使用该字体的自定义编码进行引用

PDF第一页上的字体9包含一个ToUnicode地图。此地图尤其是地图

<20> <20> <0928>
<21> <21> <0928>
<22> <22> <0930>
<23> <23> <0930>
<24> <24> <0930> 

i、 e.代码0x20(“”)和0x21(“!”)都映射到Unicode代码点0x0928(“”)न') 代码0x22(“”)、0x23(“#”)和0x24(“$”)都指向Unicode代码点0x0930(“$”)र').


因此,
(!“#$%&)
的内容显示为“निर्वाचक,完全正确(根据文档中的信息)提取/复制并粘贴为ननरररचक“

通常印地语字体嵌入了不正确的字形到Unicode的映射。可能需要应用OCR。如果没有看到实际的PDF文档显示此问题,则无法以任何方式帮助您。您好@SavendraSingh我正面临与类似文档完全相同的问题。我需要您的帮助。您能分享一下您是如何解决此问题的吗?”e这个问题。你是如何阅读文档的?你的回答对我很有帮助。我用OCR解决了这个问题。我完成了卡纳塔克邦的选民数据提取。我有250多个相同类型的pdf文件,我无法提取给定的内容,OCR也不能正常工作。它漏掉了许多字符。@mkl你能不能e解释一下,如何解决这个问题?我有你试图提出的问题,但如何解决这个问题还没有解决clear@proprius那么,你能解释一下,如何解决这个问题吗?在它看来,每个PDF中实际上只有几个字体字典。一个解决方案是将每个字体的每个字形呈现给然后提供正确的Unicode字符的用户。根据这些信息,用户可以为每个字体对象构建一个ToUnicode映射,并替换原来的一个。@proprius如果您有许多文档,其中的字体是相同的几个实际完整字体的子集,您可以通过识别已映射的字形来越来越自动化在重新使用以前的输入之前由用户将d转换为Unicode。@proprius创建此工具本身就是一个非常重要的项目,开发人员应该知道如何处理PDF内部和字体格式内部。如果您需要处理大量此类文档,那么这项工作可能会有回报。