如何使用非ASCII编码从PDF剪切粘贴?

如何使用非ASCII编码从PDF剪切粘贴?,pdf,unicode,acrobat,Pdf,Unicode,Acrobat,我有一些PDF,我正在尝试将它们包含的AcrobatReader文本剪切并粘贴到HTML表单中。似乎其中一些文件使用unicode进行文本编码,所以当我尝试在firefox上粘贴到HTML表单时,我得到的是带有十六进制字符的小框,而不是可读文本。问题不在于PDF没有被OCR识别——当我在AcrobatPro中尝试这样做时,它说不能,因为文件已经包含可渲染文本。有什么办法解决这个问题吗?例如,我可以在表单中添加某种javascript来进行转换吗?很可能文本包含正确复制的字符,但由于缺少合适的字体

我有一些PDF,我正在尝试将它们包含的AcrobatReader文本剪切并粘贴到HTML表单中。似乎其中一些文件使用unicode进行文本编码,所以当我尝试在firefox上粘贴到HTML表单时,我得到的是带有十六进制字符的小框,而不是可读文本。问题不在于PDF没有被OCR识别——当我在AcrobatPro中尝试这样做时,它说不能,因为文件已经包含可渲染文本。有什么办法解决这个问题吗?例如,我可以在表单中添加某种javascript来进行转换吗?

很可能文本包含正确复制的字符,但由于缺少合适的字体,浏览器无法显示这些字符。PDF文档可能包含嵌入式字体,因此Adobe Reader可以显示字符,但浏览器无法访问这些字体


您可以通过尝试在此处复制和粘贴字符来检查这是否是原因。无论如何,这可能是有关问题的有用信息。您还可以下载并安装,其中包含您通常会遇到的几乎任何字符。Firefox不能保证,但很有可能在需要时自动使用这些字体。

您能将从文件复制的文本粘贴到其他程序中,如记事本、Word或任何其他程序中吗

某些PDF文件的生成没有特殊信息,而这些信息对于成功从中提取文本至关重要。甚至通过Adobe工具。基本上,这些文件不包含字形到字符的映射信息

这样的文件可以很好地显示和打印,但无法正确复制/提取其中的文本


例如,蒸馏器在使用最小文件大小预设时生成此类文件

我也有同样的问题。。。事实上,这里有这样的解释:

我的解决方案是使用Acrobat的导出工具将pdf转换为Word,然后从中提取我需要的信息

这是令人沮丧的,但这项工作


我发现的另一个解决方案是将pdf图像转换为jpeg、png等格式,然后运行OCR过程

我也遇到了同样的问题,但在我的案例中,我通过使用浏览器chrome打开PDF文件解决了这个问题。 复制和粘贴非ASCII编码在chrome中工作良好

在Acrobat中选择文本。 单击鼠标右键,然后从关联菜单中选择“使用格式复制”。 等待进度条处理文本。 粘贴到Word文档中。
我们在尝试将西里尔文字从PDF文件复制/粘贴到Excel中时遇到了类似的问题

我们找到的最简单的解决方案是用浏览器Chrome、Mozilla或Opera打开.pdf,然后在Word、Excel中复制/粘贴文本


如预期的那样,它不能与IE一起工作。

您可以从acrobat以jpeg格式导出,然后在acrobat not reader中打开jpeg,然后运行OCR工具。从那里你应该可以复制/粘贴

我正在使用Nitro Pdf。第一,我从pdf创建了600 dpi的图像。然后在新的pdf文件中打开图像。然后,在“审阅”选项卡中,我使用了OCR选项。这将我带到另一个带有标准编码pdf文件的pdf文件,在那里我可以复制和粘贴文本。

尝试了字体,没有帮助。另外,当我将字符粘贴到IDE Komodo中时,它说默认编码cp-1252不合适,当我将编码改为unicode时,它变得高兴起来。无论我将其粘贴到哪里,记事本、Word等,结果都是一样的。我想你对PDF文件的看法可能是正确的。如果我在Acrobat Pro中打开这个文件,复制它的一些文本,然后打开一个便签并尝试粘贴文本,我会得到框而不是字符。所以即使是Acrobat也不能处理这个文本。