Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/apache-kafka/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何在将文档从PDF转换为文本时处理unicode字符编码问题_Pdf_Unicode_Character Encoding_Text Processing_Pdf Conversion - Fatal编程技术网

如何在将文档从PDF转换为文本时处理unicode字符编码问题

如何在将文档从PDF转换为文本时处理unicode字符编码问题,pdf,unicode,character-encoding,text-processing,pdf-conversion,Pdf,Unicode,Character Encoding,Text Processing,Pdf Conversion,我正在尝试从PDF中提取文本。PDF包含印地语(Unicode)文本。我使用的提取实用程序是apachepdfbox()。提取器提取文本,但无法识别文本。我尝试在许多编码和字体之间进行更改,但预期的文本仍然无法识别。 以下是一个例子: 假设PDF中的文本为:पवार 拔牙后的护理是:̄Ö3⁄4Ö̧ü 有什么建议吗?PDF的核心是一种打印格式,因此它将文本记录为一系列视觉符号,而不是实际文本。最初,它从来没有打算作为一种数字存档格式,并且仍然显示在许多文档中。对于复杂的脚本,例如需要字形替换、连接

我正在尝试从PDF中提取文本。PDF包含印地语(Unicode)文本。我使用的提取实用程序是apachepdfbox()。提取器提取文本,但无法识别文本。我尝试在许多编码和字体之间进行更改,但预期的文本仍然无法识别。 以下是一个例子: 假设PDF中的文本为:पवार
拔牙后的护理是:̄Ö3⁄4Ö̧ü


有什么建议吗?

PDF的核心是一种打印格式,因此它将文本记录为一系列视觉符号,而不是实际文本。最初,它从来没有打算作为一种数字存档格式,并且仍然显示在许多文档中。对于复杂的脚本,例如需要字形替换、连接和重新排序的阿拉伯文或印度文脚本,基本上经常会出现混乱。您通常会得到嵌入字体中使用的字形ID,这些字形ID与Unicode或实际文本编码没有任何相似之处(字体表示字形,其中一些可能映射到Unicode代码点,但一些仅用于字体内部使用,例如基于上下文或连字的字形变体)。对于LaTeX生成的PDF,尤其是非ASCII字符和数学,您可以看到同样的情况

PDF还可以将文本作为文本嵌入到可视化表示中,但这完全取决于生成应用程序。我听说Word在制作PDF时非常努力地保留这些信息,但许多PDF生成器却不这样做(它通常对拉丁语有一定的效果,这可能就是几乎没有人打扰的原因)


我认为如果PDF没有可用的纯文本,对你来说最好的选择是PDF上的OCR作为图像。

你能分享一个指向此类文件的链接吗?@Prakash我也在研究同样的概念。只需要你找到解决方案?谢谢Joey。我将尝试OCR,但是,是否有任何在线应用程序可用于识别PDFA的编码我在回答中试图说,没有编码。PDF通过在页面上放置图示符来指定文档的外观。在这一阶段没有机器可读的文本,除非在一些情况下,例如ASCII或拉丁语-1文本,它们通常是非混合文本。这就好像你在穿孔卡片上写下了文字,并期望计算机能读取你写下的文字,即使你在卡片上没有穿孔。