PDF文本转换会导致乱码

PDF文本转换会导致乱码,pdf,itextsharp,ghostscript,Pdf,Itextsharp,Ghostscript,我使用两个不同的程序将pdf文件转换为txt文件。通常,这会产生好看的文本。有时候,事实并非如此。我有一组文件,可通过以下方式进行转换: 我能读的文字:你的账户摘要 复制、粘贴到记事本++: Ghostscript:似乎是一个垃圾文件。充满了xEF,xBF字符 xPdf:给了我一个文件,里面有这样的东西:ch+63Ì+CÌÍÌ;ÆÁÅAÁ 复制粘贴方法似乎最接近英语,因为这些字符中的每一个都代表一个字母表字符。SO==Y,SI==o,STX==u,等等 我想将这些pdf文件转换为英文文本。通常

我使用两个不同的程序将pdf文件转换为txt文件。通常,这会产生好看的文本。有时候,事实并非如此。我有一组文件,可通过以下方式进行转换:

我能读的文字:你的账户摘要

复制、粘贴到记事本++:

Ghostscript:似乎是一个垃圾文件。充满了
xEF
xBF
字符

xPdf:给了我一个文件,里面有这样的东西:
ch+63Ì+CÌÍÌ;ÆÁÅAÁ

复制粘贴方法似乎最接近英语,因为这些字符中的每一个都代表一个字母表字符。SO==Y,SI==o,STX==u,等等


我想将这些pdf文件转换为英文文本。

通常情况下,Unicode符号看起来像

xEF,xBF


。您需要从Unicode到用户友好的字母进行额外的转换。

在SO中,这一问题已经被问了无数次。简短回答:您的文件不允许文本提取,请改用OCR库。但是,如果复制粘贴方法实际上是某种字符表示,我会假设我可以提取该代码,然后将其转换为真实文本。我错了吗?不是真的。。。它们可能只是一组对象中的索引,告诉PDF阅读器如何绘制每个字符,而不需要任何关于所表示文本的进一步信息。请在中查找有关PDF文本提取的问题,因此,这里有许多很好的答案,涵盖了这些问题。请检查此问题,例如: