将pdf转换为文本文件的重影脚本,输出不可读

将pdf转换为文本文件的重影脚本,输出不可读,pdf,ascii,ghostscript,Pdf,Ascii,Ghostscript,我试图将pdf文档转换为文本文件。一切正常,直到我打开输出文件,看到它不可读的字符是一些中文字体 "琀攀猀琀 " 这是我的命令行 gswin64c.exe -ps2ascii -sDEVICE=txtwrite -sOutputFile=outputtext.txt test.pdf 我做错了什么吗?您还没有发布文件,因此不可能绝对确定,但是 几乎可以肯定的是,PDF文件中的文本没有使用ASCII编码方案进行编码(可能包含日落字体),也没有包含所讨论字体的ToUnicode CMap。此外,

我试图将pdf文档转换为文本文件。一切正常,直到我打开输出文件,看到它不可读的字符是一些中文字体

"琀攀猀琀 "

这是我的命令行

gswin64c.exe -ps2ascii -sDEVICE=txtwrite -sOutputFile=outputtext.txt test.pdf 

我做错了什么吗?

您还没有发布文件,因此不可能绝对确定,但是

几乎可以肯定的是,PDF文件中的文本没有使用ASCII编码方案进行编码(可能包含日落字体),也没有包含所讨论字体的ToUnicode CMap。此外,字形名称不是标准名称(或者它是TrueType字体,没有命名字形)

如果没有上述任何信息,txtwrite就不知道字符代码代表什么,因此只会逐字发送它们

鉴于您看到的是中文字形,我怀疑原始字体是CIDFont,可能是TrueType字体的子集,并且没有ToUnicode CMap


在这种情况下,获取文本的唯一方法是使用OCR。

我会尝试重新提交此文件,询问
gswin64
ghostscript
。您的python代码只是将字符串传递给shell。这不是python问题!您单独使用命令行了吗?@Jean Françoisfare yea我在command li中尝试过它也为ne,但结果相同可能重复