Text 使用重影脚本将PostScript转换为文本

Text 使用重影脚本将PostScript转换为文本,text,unicode,fonts,ghostscript,postscript,Text,Unicode,Fonts,Ghostscript,Postscript,我想从PostScript文档中提取文本数据。问题是,当我使用GhostScript这样做时,一些文本将被正常提取,而其他文本将被转换为奇怪的符号字符 我意识到,由于许可证限制,通常提取的文本是GhostScript不会将其嵌入PDF的字体。而且,讽刺的是,没有授权限制的字体(通常嵌入在PDF中)并没有正确地转换回来 我尝试了txtwrite设备直接将PostScript转换为文本,也尝试了pdfwrite设备先将PS转换为PDF,然后从PDF文档中提取文本,但两者都不起作用 我想也许我可以用不

我想从PostScript文档中提取文本数据。问题是,当我使用GhostScript这样做时,一些文本将被正常提取,而其他文本将被转换为奇怪的符号字符

我意识到,由于许可证限制,通常提取的文本是GhostScript不会将其嵌入PDF的字体。而且,讽刺的是,没有授权限制的字体(通常嵌入在PDF中)并没有正确地转换回来

我尝试了txtwrite设备直接将PostScript转换为文本,也尝试了pdfwrite设备先将PS转换为PDF,然后从PDF文档中提取文本,但两者都不起作用

我想也许我可以用不受支持的字体替换所有字体,以便正确提取文本数据,但结果表明,没有简单的方法可以做到这一点


你认为我应该怎么做?

造成这种情况的原因通常是字符以非标准方式编码。恐怕你没什么办法了,除了通过比较可读的附言和提取的文本,找出哪些“奇怪的符号字符”与实际字符相对应。然后,您可以通过使用预期的字符替换奇怪的字符来重建原始文本。

原因通常是字符以非标准方式编码。恐怕你没什么办法了,除了通过比较可读的附言和提取的文本,找出哪些“奇怪的符号字符”与实际字符相对应。然后,您可以通过用指定字符替换奇怪字符来重建原始文本。

谢谢您,托马斯,但我认为这也行不通,即使我创建了一个字符映射器来替换奇怪字符,我如何在文本中的所有正常字符中识别它们(奇怪字符)?此外,每个字体都会转换成一系列不同的奇怪字符,因此我还应该知道每个字符的字体类型,这在将其提取到文本中后是不可能的。正如我所说,你可以做的不多。。。这需要很多努力。谢谢你,托马斯,但我认为这也行不通,即使我创建了一个字符映射器来替换奇怪的字符,我如何在文本中的所有正常字符中识别它们(奇怪的字符)?此外,每个字体都会转换成一系列不同的奇怪字符,因此我还应该知道每个字符的字体类型,这在将其提取到文本中后是不可能的。正如我所说,你可以做的不多。。。这需要很多努力。