修复PDF中缺少的ToUniCode映射_Pdf_Itext_Pdfbox

修复PDF中缺少的ToUniCode映射

pdf itext

修复PDF中缺少的ToUniCode映射,pdf,itext,pdfbox,Pdf,Itext,Pdfbox,我有一个pdf文件，我想从中提取文本。但由于缺少图尼科德地图，我无法做到这一点 ./pdffonts /Users/subhashlengare/Downloads/pqr39_abc.pdf name type emb sub uni object ID ------------------------------------ ----------------- --- --- --- ---------

我有一个pdf文件，我想从中提取文本。但由于缺少图尼科德地图，我无法做到这一点

./pdffonts /Users/subhashlengare/Downloads/pqr39_abc.pdf
name                                 type              emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
ATRTHG+TT1CABt00                     TrueType          yes yes no      23  0
VFQVYH+TT1CAEt00                     TrueType          yes yes no      19  0
ODNMDG+TT1CAFt00                     TrueType          yes yes no      31  0
DXGYRQ+TT1CB0t00                     TrueType          yes yes no      27  0
VFQVYH+TT1CB1t00                     TrueType          yes yes no       7  0
ArialMT                              TrueType          no  no  no     295  0
NXBBUP+TT1CC0t00                     TrueType          yes yes no      53  0
NXBBUP+TT1CC1t00                     TrueType          yes yes no      65  0
KDGXKF+TT1CC4t00                     TrueType          yes yes no     104  0
VRCBAT+TT1CC5t00                     TrueType          yes yes no     100  0
QTNBCJ+TT1CC2t00                     TrueType          yes yes no      88  0
NXBBUP+TT1CC6t00                     TrueType          yes yes no      96  0
NXBBUP+TT1CC7t00                     TrueType          yes yes no     116  0
NXBBUP+TT1CC8t00                     TrueType          yes yes no     128  0

我们如何才能添加回丢失的ToUniCode映射，以便文本提取工作正常

请参阅PDFBox的答案：然而，这是非常棘手的，必须针对每种字体执行，因此使用OCR可能会更快。iText目前正在研究OCR工具，我想调查是否有可能为现有文档支持此用例。这可能需要一段时间，但我们想回到这里。我对特定的库（itext）不是很熟悉，但可能有用的东西是：（1）阅读以了解是否放置地图，如果库不支持它（2）寻找一个库从TrueType字体文件提取地图，或者，如果字体文件中的贴图本身错误，则使用OCR单个图示符。