Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/ruby-on-rails/65.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Unix PDFtoTEXT未完全转换UTF-8编码的文本,尤其是重音字符_Unix_Pdftotext_Xpdf - Fatal编程技术网

Unix PDFtoTEXT未完全转换UTF-8编码的文本,尤其是重音字符

Unix PDFtoTEXT未完全转换UTF-8编码的文本,尤其是重音字符,unix,pdftotext,xpdf,Unix,Pdftotext,Xpdf,我正在从事一个项目,需要将PDF转换为文本。PDF包含印地语字体(具体为Mangal)和英语 100%的英语被转换成文本。印地语部分的转化率约为95%。其余5%的印地语文本为空白或类似“ा"。我发现重音字符没有正确转换为文本 我正在使用以下代码: pdftotext -enc UTF-8 pdfname.pdf textname.txt PDF使用以下字体 名称、类型、emb、sub、uni ZDPKEY+Mangal,CID TrueType,对,对,对 Mangal TrueType,不,

我正在从事一个项目,需要将PDF转换为文本。PDF包含印地语字体(具体为Mangal)和英语

100%的英语被转换成文本。印地语部分的转化率约为95%。其余5%的印地语文本为空白或类似“ा"。我发现重音字符没有正确转换为文本

我正在使用以下代码:

pdftotext -enc UTF-8 pdfname.pdf textname.txt
PDF使用以下字体

名称、类型、emb、sub、uni

ZDPKEY+Mangal,CID TrueType,对,对,对

Mangal TrueType,不,不,不

Helvetica粗体1型,不,不,不

CODUBM+Mangal Bold,CID TrueType,是,是,是

Mangal Bold,TrueType,不,不,不

《泰晤士报》,第一类,不,不,不

Helvetica,1型,不,不,不

以下是转换的结果。左侧是原始PDF。右侧是在记事本中打开的文本:

http://preview.tinyurl.com/qbxud9o
我的问题是,5%的缺失/垃圾字符是否能在开放源码软件包的文本中正确捕获?如果您能输入,我将不胜感激!

将代码更改为

pdftotext -enc "UTF-8" pdfname.pdf textname.txt
它对我有效,同样也应该对你有效。

将代码更改为

pdftotext -enc "UTF-8" pdfname.pdf textname.txt

它对我有效,同样也对你有效。

它是扫描的pdf吗?你确定pdf文件中缺少的字符作为文本存在吗?可能OCR一开始没有检测到这些字符。嗨,萨米克:它不是扫描的pdf。它是“生成的”“PDF。PDF中包含所有字符。我可以复制并粘贴在记事本上。它是扫描过的pdf吗?您确定pdf文件中缺少的字符作为文本存在吗?也许OCR一开始没有检测到这些字符。嗨,萨米克:这不是扫描过的PDF。它是一个“生成”的PDF。PDF中包含所有字符。我可以复制并粘贴在记事本上。