Encoding iTextSharp使用c从Identity-H编码中提取文本#
我使用iTextSharp库。 我想解析Pdf文档中的文本 使用“GetTextFromPage()”方法非常好 但它不知道文本的位置 我想得到文本和图像的顺序 所以我想知道那个物体的位置 所以我没有使用GetTextFromPage()方法 现在我得到了文本信息(用于令牌??)。但这种文本编码是“Identity-H” 所以,我不知道这段文字Encoding iTextSharp使用c从Identity-H编码中提取文本#,encoding,itextsharp,extract,Encoding,Itextsharp,Extract,我使用iTextSharp库。 我想解析Pdf文档中的文本 使用“GetTextFromPage()”方法非常好 但它不知道文本的位置 我想得到文本和图像的顺序 所以我想知道那个物体的位置 所以我没有使用GetTextFromPage()方法 现在我得到了文本信息(用于令牌??)。但这种文本编码是“Identity-H” 所以,我不知道这段文字 如何转换???您最好尝试另一种方法,扩展文本提取策略以同时返回坐标。您好@mkl我已经检查了这个问题,我认为标识CMAP确实存在问题。我已经向SVN存储
如何转换???您最好尝试另一种方法,扩展
文本提取策略
以同时返回坐标。您好@mkl我已经检查了这个问题,我认为标识
CMAP确实存在问题。我已经向SVN存储库发布了一些代码。我认为这解决了问题,但如果没有足够的样本PDF,就很难进行测试。也许OP可以发布我们可以使用的PDF@이대연 你能分享一个重现问题的PDF吗?我可能已经修复了它,但我需要文档来测试我的解决方案。