Encoding iTextSharp使用c从Identity-H编码中提取文本#_Encoding_Itextsharp_Extract

Encoding iTextSharp使用c从Identity-H编码中提取文本#

encoding

Encoding iTextSharp使用c从Identity-H编码中提取文本#,encoding,itextsharp,extract,Encoding,Itextsharp,Extract,我使用iTextSharp库。我想解析Pdf文档中的文本使用“GetTextFromPage（）”方法非常好但它不知道文本的位置我想得到文本和图像的顺序所以我想知道那个物体的位置所以我没有使用GetTextFromPage（）方法现在我得到了文本信息（用于令牌？？）。但这种文本编码是“Identity-H” 所以，我不知道这段文字如何转换？？？您最好尝试另一种方法，扩展文本提取策略以同时返回坐标。您好@mkl我已经检查了这个问题，我认为标识CMAP确实存在问题。我已经向SVN存储

我使用iTextSharp库。我想解析Pdf文档中的文本

使用“GetTextFromPage（）”方法非常好

但它不知道文本的位置

我想得到文本和图像的顺序

所以我想知道那个物体的位置

所以我没有使用GetTextFromPage（）方法

现在我得到了文本信息（用于令牌？？）。但这种文本编码是“Identity-H”

所以，我不知道这段文字

如何转换？？？

您最好尝试另一种方法，扩展

文本提取策略

以同时返回坐标。您好@mkl我已经检查了这个问题，我认为

标识

CMAP确实存在问题。我已经向SVN存储库发布了一些代码。我认为这解决了问题，但如果没有足够的样本PDF，就很难进行测试。也许OP可以发布我们可以使用的PDF@이대연 你能分享一个重现问题的PDF吗？我可能已经修复了它，但我需要文档来测试我的解决方案。