如何在将文档从PDF转换为文本时处理unicode字符编码问题_Pdf_Unicode_Character Encoding_Text Processing_Pdf Conversion

如何在将文档从PDF转换为文本时处理unicode字符编码问题

pdf unicode character-encoding

如何在将文档从PDF转换为文本时处理unicode字符编码问题,pdf,unicode,character-encoding,text-processing,pdf-conversion,Pdf,Unicode,Character Encoding,Text Processing,Pdf Conversion,我正在尝试从PDF中提取文本。PDF包含印地语（Unicode）文本。我使用的提取实用程序是apachepdfbox（）。提取器提取文本，但无法识别文本。我尝试在许多编码和字体之间进行更改，但预期的文本仍然无法识别。以下是一个例子：假设PDF中的文本为：पवार 拔牙后的护理是：̄Ö3⁄4Ö̧ü 有什么建议吗？PDF的核心是一种打印格式，因此它将文本记录为一系列视觉符号，而不是实际文本。最初，它从来没有打算作为一种数字存档格式，并且仍然显示在许多文档中。对于复杂的脚本，例如需要字形替换、连接

我正在尝试从PDF中提取文本。PDF包含印地语（Unicode）文本。我使用的提取实用程序是apachepdfbox（）。提取器提取文本，但无法识别文本。我尝试在许多编码和字体之间进行更改，但预期的文本仍然无法识别。以下是一个例子：假设PDF中的文本为：पवार
拔牙后的护理是：̄Ö3⁄4Ö̧ü

有什么建议吗？

PDF的核心是一种打印格式，因此它将文本记录为一系列视觉符号，而不是实际文本。最初，它从来没有打算作为一种数字存档格式，并且仍然显示在许多文档中。对于复杂的脚本，例如需要字形替换、连接和重新排序的阿拉伯文或印度文脚本，基本上经常会出现混乱。您通常会得到嵌入字体中使用的字形ID，这些字形ID与Unicode或实际文本编码没有任何相似之处（字体表示字形，其中一些可能映射到Unicode代码点，但一些仅用于字体内部使用，例如基于上下文或连字的字形变体）。对于LaTeX生成的PDF，尤其是非ASCII字符和数学，您可以看到同样的情况

PDF还可以将文本作为文本嵌入到可视化表示中，但这完全取决于生成应用程序。我听说Word在制作PDF时非常努力地保留这些信息，但许多PDF生成器却不这样做（它通常对拉丁语有一定的效果，这可能就是几乎没有人打扰的原因）

我认为如果PDF没有可用的纯文本，对你来说最好的选择是PDF上的OCR作为图像。

你能分享一个指向此类文件的链接吗？@Prakash我也在研究同样的概念。只需要你找到解决方案？谢谢Joey。我将尝试OCR，但是，是否有任何在线应用程序可用于识别PDFA的编码我在回答中试图说，没有编码。PDF通过在页面上放置图示符来指定文档的外观。在这一阶段没有机器可读的文本，除非在一些情况下，例如ASCII或拉丁语-1文本，它们通常是非混合文本。这就好像你在穿孔卡片上写下了文字，并期望计算机能读取你写下的文字，即使你在卡片上没有穿孔。