复制并粘贴PDF文本会产生错误的文本

复制并粘贴PDF文本会产生错误的文本,pdf,text,Pdf,Text,我有一个包含以下文本的PDF: 奥里萨昂 当我复制并粘贴此文本时,它会提供: localizac¸ao 任何帮助都是非常感谢的 Tks了解您是如何复制文本的非常重要。如果您只是在使用文本编辑器并修改底层PDF代码,那么您将遇到问题。PDF文件是以一种非常复杂且非人类可读的方式组织的,需要专门的程序才能成功更改。如果要进行此更改,您需要使用PDF编辑器编辑文档,或从头开始生成新文档。对于计算机生成的文档(非OCRd/扫描) 一些系统,如LaTeX生成合成字符,因为系统的字体在当前编码中不包含(或支

我有一个包含以下文本的PDF: 奥里萨昂

当我复制并粘贴此文本时,它会提供:

localizac¸ao

任何帮助都是非常感谢的


Tks

了解您是如何复制文本的非常重要。如果您只是在使用文本编辑器并修改底层PDF代码,那么您将遇到问题。PDF文件是以一种非常复杂且非人类可读的方式组织的,需要专门的程序才能成功更改。如果要进行此更改,您需要使用PDF编辑器编辑文档,或从头开始生成新文档。

对于计算机生成的文档(非OCRd/扫描) 一些系统,如
LaTeX
生成合成字符,因为系统的字体在当前编码中不包含(或支持)此类字形。因此。它们是使用动态生成的

使两个图示符看起来像一个:

A+'>Á

由于这种“技巧”,可选择的PDF文本信息包含两个分开的图示符。但是从图形上看,它们都在同一个点上渲染


快速解决方案:


幸运的是,生成的字符对不会自然出现在写得好的段落中(可能是任何语言)。因此,使用区分大小写的方法搜索/替换它们是非常安全的。您可以使用自己喜欢的文本编辑器手动执行,也可以使用python脚本等。无论是否自动执行,解决方案的原理都是一样的。

您从哪个PDF查看器复制?你在哪个程序中粘贴?你能提供PDF来重现这个问题吗?你好,我用LaTeX生成了PDF!我怎样才能复制粘贴这篇文章,而不丢失字符?我在回答中添加了一个快速解决方案。也许听起来并不优雅。但它只是工作:啊,我试图逃离这个解决方案:P。。。但是非常感谢你的解释和帮助!