Ios 使用CGPDFScanner从PDF读取文本-此PDF文件有什么问题？_Ios_Pdf_Character Encoding_Cgpdf_Cgpdfscanner

Ios 使用CGPDFScanner从PDF读取文本-此PDF文件有什么问题？

ios pdf character-encoding

Ios 使用CGPDFScanner从PDF读取文本-此PDF文件有什么问题？,ios,pdf,character-encoding,cgpdf,cgpdfscanner,Ios,Pdf,Character Encoding,Cgpdf,Cgpdfscanner,我正在尝试从此文件中提取文本：使用CGPDFScanner。我可以从附带的PDF字典中检测到字符编码是WinAnsienceODing，但是字符都是乱码。作为交叉检查，我试着从MacOSX的预览应用程序中复制粘贴文本，这是可行的，所以无论如何，它必须能够提取为字符串。另一方面，商业第三方框架也不能正确提取文本有人知道我错过了什么吗作为旁注，我正在使用扫描PDF 刚刚发现在iOS8上[NSString stringEncodingForData…]返回“西里尔字母”作为PDF内容部分的NS

我正在尝试从此文件中提取文本：

使用CGPDFScanner。我可以从附带的PDF字典中检测到字符编码是WinAnsienceODing，但是字符都是乱码。作为交叉检查，我试着从MacOSX的预览应用程序中复制粘贴文本，这是可行的，所以无论如何，它必须能够提取为字符串。另一方面，商业第三方框架也不能正确提取文本

有人知道我错过了什么吗

作为旁注，我正在使用扫描PDF

刚刚发现在iOS8上[NSString stringEncodingForData…]返回“西里尔字母”作为PDF内容部分的NSStringEncoding。尽管如此，即使使用该字符编码从数据流创建字符串，它也不会给出可读的输出。好吧，“西里尔字母”被证明是不正确的：）p.1上的主字体编码为

/winansienceoding

，其中

/Differences

数组覆盖1到75（ish）的字符代码，这也许可以解释为什么假设它是纯赢的ANSI失败了。但是它还包含一个

/ToUnicode

表，任何值得其存储空间使用的PDF文本提取器都应该能够使用该表。我自己的、高度实验性的PDF阅读器可以很好地阅读文本，包括

ä

s和

ö

s和

ß

s等等。也许你应该发布你的（目前失败的）代码。谢谢你的见解。在逐步完成PDFKitten项目的同时，似乎没有将tounicode表用于包含的字体。至于代码——如果你从上面的链接克隆这个项目，它基本上是在scanner.m类中，在那里乱码文本到达，但是映射的东西发生在一堆其他的类中，这太多了，无法在这里发布。