PDF数据提取给出符号/胡言乱语？_Pdf_Character Encoding_Text Extraction

PDF数据提取给出符号/胡言乱语？

pdf character-encoding

PDF数据提取给出符号/胡言乱语？,pdf,character-encoding,text-extraction,Pdf,Character Encoding,Text Extraction,我有一个叫做PDF2XL的软件，它通常非常适合从PDF文件中提取数据表。我以前用过几百个文件但是，这一个文件给了我乱七八糟的输出，我甚至不能正确地复制和粘贴到这个文本区域。各种各样的奇怪如果我按照常规复制并粘贴到excel/记事本中，我也会遇到同样的问题我想这与PDF文件中混乱的字符编码头有关？我怎样才能改变这个？我在Windows上，没有可以编辑PDF的软件，因此如果我需要编辑/重新保存PDF，请推荐一个免费的软件谢谢越来越多的PDF文件使用了子集字体，这基本上是一种自定义编码。通常

我有一个叫做PDF2XL的软件，它通常非常适合从PDF文件中提取数据表。我以前用过几百个文件

但是，这一个文件给了我乱七八糟的输出，我甚至不能正确地复制和粘贴到这个文本区域。各种各样的奇怪

如果我按照常规复制并粘贴到excel/记事本中，我也会遇到同样的问题

我想这与PDF文件中混乱的字符编码头有关？我怎样才能改变这个？我在Windows上，没有可以编辑PDF的软件，因此如果我需要编辑/重新保存PDF，请推荐一个免费的软件

谢谢

越来越多的PDF文件使用了子集字体，这基本上是一种自定义编码。通常PDF中的字体描述符应该有一个ToUnicode表，以允许文本提取解码字体编码并返回正确的文本

一些PDF制作人这样做是为了防止财务报告之类的东西容易提取PDF文本。如果只有一种字体，那么您可以手动解码该字体，但根据我的经验，我见过PDF带有多个随机编码，这几乎不可能自动解码

测试这些类型PDF的一种方法是在Acrobat中打开文件，选择一些文本，复制它，然后粘贴到记事本中。如果文本是乱码，那么PDF使用的是一个子集字体，您可以做的就不多了。如果Acrobat不能正确提取文本，那么其他任何东西都不能。它也可能是一页象形文字。

您能分享一个指向该文件的链接吗？我会尽力找出问题所在。只要再遇到这个问题就行了。谷歌搜索了一下，最热门的是我自己的问题。我认为解决办法是截图，然后通过OCR软件运行。如果通过截图，OCR结果不够准确，你也可以将PDF页面呈现为图像文件。你是如何做到的？在这种情况下，他们是，但这是很好的了解，可能更容易。谢谢