PDF文本转换会导致乱码
我使用两个不同的程序将pdf文件转换为txt文件。通常,这会产生好看的文本。有时候,事实并非如此。我有一组文件,可通过以下方式进行转换: 我能读的文字:你的账户摘要 复制、粘贴到记事本++: Ghostscript:似乎是一个垃圾文件。充满了PDF文本转换会导致乱码,pdf,itextsharp,ghostscript,Pdf,Itextsharp,Ghostscript,我使用两个不同的程序将pdf文件转换为txt文件。通常,这会产生好看的文本。有时候,事实并非如此。我有一组文件,可通过以下方式进行转换: 我能读的文字:你的账户摘要 复制、粘贴到记事本++: Ghostscript:似乎是一个垃圾文件。充满了xEF,xBF字符 xPdf:给了我一个文件,里面有这样的东西:ch+63Ì+CÌÍÌ;ÆÁÅAÁ 复制粘贴方法似乎最接近英语,因为这些字符中的每一个都代表一个字母表字符。SO==Y,SI==o,STX==u,等等 我想将这些pdf文件转换为英文文本。通常
xEF
,xBF
字符
xPdf:给了我一个文件,里面有这样的东西:ch+63Ì+CÌÍÌ;ÆÁÅAÁ
复制粘贴方法似乎最接近英语,因为这些字符中的每一个都代表一个字母表字符。SO==Y,SI==o,STX==u,等等
我想将这些pdf文件转换为英文文本。通常情况下,Unicode符号看起来像 xEF,xBF
。您需要从Unicode到用户友好的字母进行额外的转换。在SO中,这一问题已经被问了无数次。简短回答:您的文件不允许文本提取,请改用OCR库。但是,如果复制粘贴方法实际上是某种字符表示,我会假设我可以提取该代码,然后将其转换为真实文本。我错了吗?不是真的。。。它们可能只是一组对象中的索引,告诉PDF阅读器如何绘制每个字符,而不需要任何关于所表示文本的进一步信息。请在中查找有关PDF文本提取的问题,因此,这里有许多很好的答案,涵盖了这些问题。请检查此问题,例如: