如何正确提取此PDF文件的阿拉伯语文本？_Pdf_Encoding_Arabic

如何正确提取此PDF文件的阿拉伯语文本？

pdf encoding

如何正确提取此PDF文件的阿拉伯语文本？,pdf,encoding,arabic,Pdf,Encoding,Arabic,今天我试图在一个包含阿拉伯语内容的PDF文件中搜索一个阿拉伯语单词所有PDF阅读器软件都无法搜索此PDF文件中的任何阿拉伯语单词因此，我将PDF文件拖到Firefox浏览器中，通过inspect elements选择了一个包含一些单词的区域，并看到了以下内容： 硬件½oiC而不是此PDF文件中使用的编码类型是什么？如何将其编码为普通文本？在没有看到的情况下，很难对正在查看的文件进行评论，但一个好的起点是尝试Acrobat，通过复制文本并将其粘贴到文本编辑器或搜索文本内容，将发现是否可

今天我试图在一个包含阿拉伯语内容的PDF文件中搜索一个阿拉伯语单词

所有PDF阅读器软件都无法搜索此PDF文件中的任何阿拉伯语单词

因此，我将PDF文件拖到Firefox浏览器中，通过inspect elements选择了一个包含一些单词的区域，并看到了以下内容：

硬件½oiC

而不是


此PDF文件中使用的编码类型是什么？
如何将其编码为普通文本？
在没有看到的情况下，很难对正在查看的文件进行评论，但一个好的起点是尝试Acrobat，通过复制文本并将其粘贴到文本编辑器或搜索文本内容，将发现是否可以正确提取
如果无法正确提取，则字体很可能缺少ToUnicode条目（有关详细信息，请参阅ISO PDF 32000-1:2008规范第9.10.1节）。
如果复制和粘贴导致“硬件½oiC”，文件必须可能不包含文本提取所需的信息。这种编码很可能是任意的特殊编码。严格地说，ToUnicode只是使文本提取成为可能的一种方法。其他方法包括使用预定义编码或ROS，或使用带有ActualText条目的标记内容。