用iText提取Identity-H编码文本

用iText提取Identity-H编码文本,itext,extract,Itext,Extract,我正在尝试从pdf文件中提取文本。在Acrobat中可以选择文本。Acrobat列出了ArialUnicodeMS字体,字体类型为:TrueType(CID),编码为:Identity-H 使用片段 PdfReader reader = new PdfReader(filePath); String content = PdfTextExtractor.getTextFromPage(reader, 1); 我正在取回一些东西,但当输出到标准输出或文件(输出看起来像空白字符)时,它是不可读的。

我正在尝试从pdf文件中提取文本。在Acrobat中可以选择文本。Acrobat列出了ArialUnicodeMS字体,字体类型为:TrueType(CID),编码为:Identity-H

使用片段

PdfReader reader = new PdfReader(filePath);
String content = PdfTextExtractor.getTextFromPage(reader, 1);

我正在取回一些东西,但当输出到标准输出或文件(输出看起来像空白字符)时,它是不可读的。如何提取Identity-H编码的文本?

这是一个很长的问题,但您是否尝试将pdf设置为1.2版,Identity-H编码是字体的双字节编码,主要用于亚洲字体和所有Indesign生成的pdf


如果您的pdf中没有渐变、透明等功能,您可以尝试(在备份之前先备份您的pdf,就像我在《远大冒险》之前所说的那样,只是大声思考)

谢谢您的回答。我不能为了阅读而更改pdf。我切换到pdfbox,它显然没有问题。