PDF数据提取给出符号/胡言乱语?

PDF数据提取给出符号/胡言乱语?,pdf,character-encoding,text-extraction,Pdf,Character Encoding,Text Extraction,我有一个叫做PDF2XL的软件,它通常非常适合从PDF文件中提取数据表。我以前用过几百个文件 但是,这一个文件给了我乱七八糟的输出,我甚至不能正确地复制和粘贴到这个文本区域。各种各样的奇怪 如果我按照常规复制并粘贴到excel/记事本中,我也会遇到同样的问题 我想这与PDF文件中混乱的字符编码头有关?我怎样才能改变这个?我在Windows上,没有可以编辑PDF的软件,因此如果我需要编辑/重新保存PDF,请推荐一个免费的软件 谢谢 越来越多的PDF文件使用了子集字体,这基本上是一种自定义编码。通常

我有一个叫做PDF2XL的软件,它通常非常适合从PDF文件中提取数据表。我以前用过几百个文件

但是,这一个文件给了我乱七八糟的输出,我甚至不能正确地复制和粘贴到这个文本区域。各种各样的奇怪

如果我按照常规复制并粘贴到excel/记事本中,我也会遇到同样的问题

我想这与PDF文件中混乱的字符编码头有关?我怎样才能改变这个?我在Windows上,没有可以编辑PDF的软件,因此如果我需要编辑/重新保存PDF,请推荐一个免费的软件


谢谢

越来越多的PDF文件使用了子集字体,这基本上是一种自定义编码。通常PDF中的字体描述符应该有一个ToUnicode表,以允许文本提取解码字体编码并返回正确的文本

一些PDF制作人这样做是为了防止财务报告之类的东西容易提取PDF文本。如果只有一种字体,那么您可以手动解码该字体,但根据我的经验,我见过PDF带有多个随机编码,这几乎不可能自动解码


测试这些类型PDF的一种方法是在Acrobat中打开文件,选择一些文本,复制它,然后粘贴到记事本中。如果文本是乱码,那么PDF使用的是一个子集字体,您可以做的就不多了。如果Acrobat不能正确提取文本,那么其他任何东西都不能。它也可能是一页象形文字。

您能分享一个指向该文件的链接吗?我会尽力找出问题所在。只要再遇到这个问题就行了。谷歌搜索了一下,最热门的是我自己的问题。我认为解决办法是截图,然后通过OCR软件运行。如果通过截图,OCR结果不够准确,你也可以将PDF页面呈现为图像文件。你是如何做到的?在这种情况下,他们是,但这是很好的了解,可能更容易。谢谢