如何使用非ASCII编码从PDF剪切粘贴？_Pdf_Unicode_Acrobat

如何使用非ASCII编码从PDF剪切粘贴？

pdf unicode

如何使用非ASCII编码从PDF剪切粘贴？,pdf,unicode,acrobat,Pdf,Unicode,Acrobat,我有一些PDF，我正在尝试将它们包含的AcrobatReader文本剪切并粘贴到HTML表单中。似乎其中一些文件使用unicode进行文本编码，所以当我尝试在firefox上粘贴到HTML表单时，我得到的是带有十六进制字符的小框，而不是可读文本。问题不在于PDF没有被OCR识别——当我在AcrobatPro中尝试这样做时，它说不能，因为文件已经包含可渲染文本。有什么办法解决这个问题吗？例如，我可以在表单中添加某种javascript来进行转换吗？很可能文本包含正确复制的字符，但由于缺少合适的字体

我有一些PDF，我正在尝试将它们包含的AcrobatReader文本剪切并粘贴到HTML表单中。似乎其中一些文件使用unicode进行文本编码，所以当我尝试在firefox上粘贴到HTML表单时，我得到的是带有十六进制字符的小框，而不是可读文本。问题不在于PDF没有被OCR识别——当我在AcrobatPro中尝试这样做时，它说不能，因为文件已经包含可渲染文本。有什么办法解决这个问题吗？例如，我可以在表单中添加某种javascript来进行转换吗？

很可能文本包含正确复制的字符，但由于缺少合适的字体，浏览器无法显示这些字符。PDF文档可能包含嵌入式字体，因此Adobe Reader可以显示字符，但浏览器无法访问这些字体

您可以通过尝试在此处复制和粘贴字符来检查这是否是原因。无论如何，这可能是有关问题的有用信息。您还可以下载并安装，其中包含您通常会遇到的几乎任何字符。Firefox不能保证，但很有可能在需要时自动使用这些字体。

您能将从文件复制的文本粘贴到其他程序中，如记事本、Word或任何其他程序中吗

某些PDF文件的生成没有特殊信息，而这些信息对于成功从中提取文本至关重要。甚至通过Adobe工具。基本上，这些文件不包含字形到字符的映射信息

这样的文件可以很好地显示和打印，但无法正确复制/提取其中的文本

例如，蒸馏器在使用最小文件大小预设时生成此类文件

我也有同样的问题。。。事实上，这里有这样的解释：

我的解决方案是使用Acrobat的导出工具将pdf转换为Word，然后从中提取我需要的信息

这是令人沮丧的，但这项工作

我发现的另一个解决方案是将pdf图像转换为jpeg、png等格式，然后运行OCR过程

我也遇到了同样的问题，但在我的案例中，我通过使用浏览器chrome打开PDF文件解决了这个问题。复制和粘贴非ASCII编码在chrome中工作良好

在Acrobat中选择文本。单击鼠标右键，然后从关联菜单中选择“使用格式复制”。等待进度条处理文本。粘贴到Word文档中。

我们在尝试将西里尔文字从PDF文件复制/粘贴到Excel中时遇到了类似的问题

我们找到的最简单的解决方案是用浏览器Chrome、Mozilla或Opera打开.pdf，然后在Word、Excel中复制/粘贴文本

如预期的那样，它不能与IE一起工作。

您可以从acrobat以jpeg格式导出，然后在acrobat not reader中打开jpeg，然后运行OCR工具。从那里你应该可以复制/粘贴

我正在使用Nitro Pdf。第一，我从pdf创建了600 dpi的图像。然后在新的pdf文件中打开图像。然后，在“审阅”选项卡中，我使用了OCR选项。这将我带到另一个带有标准编码pdf文件的pdf文件，在那里我可以复制和粘贴文本。

尝试了字体，没有帮助。另外，当我将字符粘贴到IDE Komodo中时，它说默认编码cp-1252不合适，当我将编码改为unicode时，它变得高兴起来。无论我将其粘贴到哪里，记事本、Word等，结果都是一样的。我想你对PDF文件的看法可能是正确的。如果我在Acrobat Pro中打开这个文件，复制它的一些文本，然后打开一个便签并尝试粘贴文本，我会得到框而不是字符。所以即使是Acrobat也不能处理这个文本。