如何正确提取此PDF文件的阿拉伯语文本?

如何正确提取此PDF文件的阿拉伯语文本?,pdf,encoding,arabic,Pdf,Encoding,Arabic,今天我试图在一个包含阿拉伯语内容的PDF文件中搜索一个阿拉伯语单词 所有PDF阅读器软件都无法搜索此PDF文件中的任何阿拉伯语单词 因此,我将PDF文件拖到Firefox浏览器中,通过inspect elements选择了一个包含一些单词的区域,并看到了以下内容: 硬件½oiC而不是 此PDF文件中使用的编码类型是什么? 如何将其编码为普通文本?在没有看到的情况下,很难对正在查看的文件进行评论,但一个好的起点是尝试Acrobat,通过复制文本并将其粘贴到文本编辑器或搜索文本内容,将发现是否可

今天我试图在一个包含阿拉伯语内容的PDF文件中搜索一个阿拉伯语单词

所有PDF阅读器软件都无法搜索此PDF文件中的任何阿拉伯语单词

因此,我将PDF文件拖到Firefox浏览器中,通过inspect elements选择了一个包含一些单词的区域,并看到了以下内容:

硬件½oiC
而不是

此PDF文件中使用的编码类型是什么?
如何将其编码为普通文本?

在没有看到的情况下,很难对正在查看的文件进行评论,但一个好的起点是尝试Acrobat,通过复制文本并将其粘贴到文本编辑器或搜索文本内容,将发现是否可以正确提取

如果无法正确提取,则字体很可能缺少ToUnicode条目(有关详细信息,请参阅ISO PDF 32000-1:2008规范第9.10.1节)。

如果复制和粘贴导致“硬件½oiC”,文件必须可能不包含文本提取所需的信息。这种编码很可能是任意的特殊编码。严格地说,ToUnicode只是使文本提取成为可能的一种方法。其他方法包括使用预定义编码或ROS,或使用带有ActualText条目的标记内容。