PDF文本转换会导致乱码_Pdf_Itextsharp_Ghostscript

PDF文本转换会导致乱码

pdf

PDF文本转换会导致乱码,pdf,itextsharp,ghostscript,Pdf,Itextsharp,Ghostscript,我使用两个不同的程序将pdf文件转换为txt文件。通常，这会产生好看的文本。有时候，事实并非如此。我有一组文件，可通过以下方式进行转换：我能读的文字：你的账户摘要复制、粘贴到记事本++： Ghostscript：似乎是一个垃圾文件。充满了xEF，xBF字符 xPdf：给了我一个文件，里面有这样的东西：ch+63Ì+CÌÍÌ；ÆÁÅAÁ 复制粘贴方法似乎最接近英语，因为这些字符中的每一个都代表一个字母表字符。SO==Y，SI==o，STX==u，等等我想将这些pdf文件转换为英文文本。通常

我使用两个不同的程序将pdf文件转换为txt文件。通常，这会产生好看的文本。有时候，事实并非如此。我有一组文件，可通过以下方式进行转换：

我能读的文字：你的账户摘要

复制、粘贴到记事本++：

Ghostscript：似乎是一个垃圾文件。充满了

xEF

，

xBF

字符

xPdf：给了我一个文件，里面有这样的东西：

ch+63Ì+CÌÍÌ；ÆÁÅAÁ

复制粘贴方法似乎最接近英语，因为这些字符中的每一个都代表一个字母表字符。SO==Y，SI==o，STX==u，等等

我想将这些pdf文件转换为英文文本。

通常情况下，Unicode符号看起来像

xEF，xBF

。您需要从Unicode到用户友好的字母进行额外的转换。

在SO中，这一问题已经被问了无数次。简短回答：您的文件不允许文本提取，请改用OCR库。但是，如果复制粘贴方法实际上是某种字符表示，我会假设我可以提取该代码，然后将其转换为真实文本。我错了吗？不是真的。。。它们可能只是一组对象中的索引，告诉PDF阅读器如何绘制每个字符，而不需要任何关于所表示文本的进一步信息。请在中查找有关PDF文本提取的问题，因此，这里有许多很好的答案，涵盖了这些问题。请检查此问题，例如：