印地语至英语(pdf格式)

印地语至英语(pdf格式),pdf,hindi,Pdf,Hindi,我无法从pdf文件复制印地语内容。当我试图复制/粘贴该内容时,它会更改为不同的印地语字符 范例- 原件-विधान सभा 粘贴后-नरधरन सभर 它是这样显示的 有谁能帮我得到准确的印地语字符。创建PDF时使用了什么 它很可能是使用嵌入式字体子集创建的,并且没有toUnicode映射。基本上,PDF内容中使用的字符代码映射到嵌入在PDF中的图示符(显示),但这些代码没有映射到常规Unicode代码,因此复制它们会产生乱码。提取原始内容的唯一方法是使用某种形式的OCR 另一种可能是粘贴到的应

我无法从pdf文件复制印地语内容。当我试图复制/粘贴该内容时,它会更改为不同的印地语字符

范例- 原件-विधान सभा

粘贴后-नरधरन सभर

它是这样显示的


有谁能帮我得到准确的印地语字符。

创建PDF时使用了什么

它很可能是使用嵌入式字体子集创建的,并且没有toUnicode映射。基本上,PDF内容中使用的字符代码映射到嵌入在PDF中的图示符(显示),但这些代码没有映射到常规Unicode代码,因此复制它们会产生乱码。提取原始内容的唯一方法是使用某种形式的OCR


另一种可能是粘贴到的应用程序没有正确塑造字符

尝试ocr解决方案。有许多文档具有误导性或缺少文本信息,特别是印地语文档。“无图尼科德映射”-或误导性文档,参见。