修复PDF中缺少的ToUniCode映射
我有一个pdf文件,我想从中提取文本。但由于缺少图尼科德地图,我无法做到这一点修复PDF中缺少的ToUniCode映射,pdf,itext,pdfbox,Pdf,Itext,Pdfbox,我有一个pdf文件,我想从中提取文本。但由于缺少图尼科德地图,我无法做到这一点 ./pdffonts /Users/subhashlengare/Downloads/pqr39_abc.pdf name type emb sub uni object ID ------------------------------------ ----------------- --- --- --- ---------
./pdffonts /Users/subhashlengare/Downloads/pqr39_abc.pdf
name type emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
ATRTHG+TT1CABt00 TrueType yes yes no 23 0
VFQVYH+TT1CAEt00 TrueType yes yes no 19 0
ODNMDG+TT1CAFt00 TrueType yes yes no 31 0
DXGYRQ+TT1CB0t00 TrueType yes yes no 27 0
VFQVYH+TT1CB1t00 TrueType yes yes no 7 0
ArialMT TrueType no no no 295 0
NXBBUP+TT1CC0t00 TrueType yes yes no 53 0
NXBBUP+TT1CC1t00 TrueType yes yes no 65 0
KDGXKF+TT1CC4t00 TrueType yes yes no 104 0
VRCBAT+TT1CC5t00 TrueType yes yes no 100 0
QTNBCJ+TT1CC2t00 TrueType yes yes no 88 0
NXBBUP+TT1CC6t00 TrueType yes yes no 96 0
NXBBUP+TT1CC7t00 TrueType yes yes no 116 0
NXBBUP+TT1CC8t00 TrueType yes yes no 128 0
我们如何才能添加回丢失的ToUniCode映射,以便文本提取工作正常 请参阅PDFBox的答案:然而,这是非常棘手的,必须针对每种字体执行,因此使用OCR可能会更快。iText目前正在研究OCR工具,我想调查是否有可能为现有文档支持此用例。这可能需要一段时间,但我们想回到这里。我对特定的库(itext)不是很熟悉,但可能有用的东西是:(1)阅读以了解是否放置地图,如果库不支持它(2)寻找一个库从TrueType字体文件提取地图,或者,如果字体文件中的贴图本身错误,则使用OCR单个图示符。