Unix PDFtoTEXT未完全转换UTF-8编码的文本，尤其是重音字符_Unix_Pdftotext_Xpdf

Unix PDFtoTEXT未完全转换UTF-8编码的文本，尤其是重音字符

unix

Unix PDFtoTEXT未完全转换UTF-8编码的文本，尤其是重音字符,unix,pdftotext,xpdf,Unix,Pdftotext,Xpdf,我正在从事一个项目，需要将PDF转换为文本。PDF包含印地语字体（具体为Mangal）和英语 100%的英语被转换成文本。印地语部分的转化率约为95%。其余5%的印地语文本为空白或类似“ा"。我发现重音字符没有正确转换为文本我正在使用以下代码： pdftotext -enc UTF-8 pdfname.pdf textname.txt PDF使用以下字体名称、类型、emb、sub、uni ZDPKEY+Mangal，CID TrueType，对，对，对 Mangal TrueType，不，

我正在从事一个项目，需要将PDF转换为文本。PDF包含印地语字体（具体为Mangal）和英语

100%的英语被转换成文本。印地语部分的转化率约为95%。其余5%的印地语文本为空白或类似“ा"。我发现重音字符没有正确转换为文本

我正在使用以下代码：

pdftotext -enc UTF-8 pdfname.pdf textname.txt

PDF使用以下字体

名称、类型、emb、sub、uni

ZDPKEY+Mangal，CID TrueType，对，对，对

Mangal TrueType，不，不，不

Helvetica粗体1型，不，不，不

CODUBM+Mangal Bold，CID TrueType，是，是，是

Mangal Bold，TrueType，不，不，不

《泰晤士报》，第一类，不，不，不

Helvetica，1型，不，不，不

以下是转换的结果。左侧是原始PDF。右侧是在记事本中打开的文本：

http://preview.tinyurl.com/qbxud9o

我的问题是，5%的缺失/垃圾字符是否能在开放源码软件包的文本中正确捕获？如果您能输入，我将不胜感激！

将代码更改为

pdftotext -enc "UTF-8" pdfname.pdf textname.txt

它对我有效，同样也应该对你有效。

将代码更改为

pdftotext -enc "UTF-8" pdfname.pdf textname.txt

它对我有效，同样也对你有效。

它是扫描的pdf吗？你确定pdf文件中缺少的字符作为文本存在吗？可能OCR一开始没有检测到这些字符。嗨，萨米克：它不是扫描的pdf。它是“生成的”“PDF。PDF中包含所有字符。我可以复制并粘贴在记事本上。它是扫描过的pdf吗？您确定pdf文件中缺少的字符作为文本存在吗？也许OCR一开始没有检测到这些字符。嗨，萨米克：这不是扫描过的PDF。它是一个“生成”的PDF。PDF中包含所有字符。我可以复制并粘贴在记事本上。