用iText提取Identity-H编码文本_Itext_Extract

用iText提取Identity-H编码文本

itext

用iText提取Identity-H编码文本,itext,extract,Itext,Extract,我正在尝试从pdf文件中提取文本。在Acrobat中可以选择文本。Acrobat列出了ArialUnicodeMS字体，字体类型为：TrueType（CID），编码为：Identity-H 使用片段 PdfReader reader = new PdfReader(filePath); String content = PdfTextExtractor.getTextFromPage(reader, 1); 我正在取回一些东西，但当输出到标准输出或文件（输出看起来像空白字符）时，它是不可读的。

我正在尝试从pdf文件中提取文本。在Acrobat中可以选择文本。Acrobat列出了ArialUnicodeMS字体，字体类型为：TrueType（CID），编码为：Identity-H

使用片段

PdfReader reader = new PdfReader(filePath);
String content = PdfTextExtractor.getTextFromPage(reader, 1);

我正在取回一些东西，但当输出到标准输出或文件（输出看起来像空白字符）时，它是不可读的。如何提取Identity-H编码的文本？

这是一个很长的问题，但您是否尝试将pdf设置为1.2版，Identity-H编码是字体的双字节编码，主要用于亚洲字体和所有Indesign生成的pdf

如果您的pdf中没有渐变、透明等功能，您可以尝试（在备份之前先备份您的pdf，就像我在《远大冒险》之前所说的那样，只是大声思考）

谢谢您的回答。我不能为了阅读而更改pdf。我切换到pdfbox，它显然没有问题。