Ios 使用CGPDFScanner从PDF读取文本-此PDF文件有什么问题?

Ios 使用CGPDFScanner从PDF读取文本-此PDF文件有什么问题?,ios,pdf,character-encoding,cgpdf,cgpdfscanner,Ios,Pdf,Character Encoding,Cgpdf,Cgpdfscanner,我正在尝试从此文件中提取文本: 使用CGPDFScanner。我可以从附带的PDF字典中检测到字符编码是WinAnsienceODing,但是字符都是乱码。作为交叉检查,我试着从MacOSX的预览应用程序中复制粘贴文本,这是可行的,所以无论如何,它必须能够提取为字符串。另一方面,商业第三方框架也不能正确提取文本 有人知道我错过了什么吗 作为旁注,我正在使用扫描PDF 刚刚发现在iOS8上[NSString stringEncodingForData…]返回“西里尔字母”作为PDF内容部分的NS

我正在尝试从此文件中提取文本:

使用CGPDFScanner。我可以从附带的PDF字典中检测到字符编码是WinAnsienceODing,但是字符都是乱码。作为交叉检查,我试着从MacOSX的预览应用程序中复制粘贴文本,这是可行的,所以无论如何,它必须能够提取为字符串。另一方面,商业第三方框架也不能正确提取文本

有人知道我错过了什么吗


作为旁注,我正在使用扫描PDF

刚刚发现在iOS8上[NSString stringEncodingForData…]返回“西里尔字母”作为PDF内容部分的NSStringEncoding。尽管如此,即使使用该字符编码从数据流创建字符串,它也不会给出可读的输出。好吧,“西里尔字母”被证明是不正确的:)p.1上的主字体编码为
/winansienceoding
,其中
/Differences
数组覆盖1到75(ish)的字符代码,这也许可以解释为什么假设它是纯赢的ANSI失败了。但是它还包含一个
/ToUnicode
表,任何值得其存储空间使用的PDF文本提取器都应该能够使用该表。我自己的、高度实验性的PDF阅读器可以很好地阅读文本,包括
ä
s和
ö
s和
ß
s等等。也许你应该发布你的(目前失败的)代码。谢谢你的见解。在逐步完成PDFKitten项目的同时,似乎没有将tounicode表用于包含的字体。至于代码——如果你从上面的链接克隆这个项目,它基本上是在scanner.m类中,在那里乱码文本到达,但是映射的东西发生在一堆其他的类中,这太多了,无法在这里发布。