iOS PDF到纯文本解析器_Ios_Pdf_Text_Extract_Cgpdf

iOS PDF到纯文本解析器

ios pdf text

iOS PDF到纯文本解析器,ios,pdf,text,extract,cgpdf,Ios,Pdf,Text,Extract,Cgpdf,在这个问题上我完全不知所措。我已经阅读了这里几乎每一篇关于它的帖子，所以，如果有人能把我推向正确的方向，我将非常感激我有一个PDF，我想提取它的文本，我只对单词和空格感兴趣。我已经安装了一个CGPDFScanner及其回调方法。我所读到的是，我只需要考虑4个运算符TJ，Tj，QUT（′）和Doul QueUT（），就提取文本而言。我想我还需要跟踪文本空间，以便能够确定字母是应该放在一起形成一个单词，还是应该用空格分隔。但我不知道我必须如何做到这一点在PDF中，所有文本均采用以下格式： [(

在这个问题上我完全不知所措。我已经阅读了这里几乎每一篇关于它的帖子，所以，如果有人能把我推向正确的方向，我将非常感激

我有一个PDF，我想提取它的文本，我只对单词和空格感兴趣。我已经安装了一个CGPDFScanner及其回调方法。我所读到的是，我只需要考虑4个运算符TJ，Tj，QUT（′）和Doul QueUT（），就提取文本而言。

我想我还需要跟踪文本空间，以便能够确定字母是应该放在一起形成一个单词，还是应该用空格分隔。但我不知道我必须如何做到这一点

在PDF中，所有文本均采用以下格式：

[(X)-24.2524(X)-24.2524(X)-24.2524(Y)-24.2524(Y)-24.2524]TJ

但我还没有弄明白（使用PDF规范）这些数字的含义。有人在SO上说，你不应该害怕PDF规范，但坦率地说，我觉得它们不容易阅读/理解

我研究了PDFKitten代码，这很有帮助

任何帮助都将不胜感激。

我无法为您提供如何从PDF中提取单词的建议，但是

[(X)-24.2524(X)-24.2524(X)-24.2524(Y)-24.2524(Y)-24.2524]TJ

例如，在“9.4.3显示运算符的文本”一节中进行了说明。

TJ

运算符的说明如下：

显示一个或多个文本字符串，允许单个glyph定位。数组的每个元素应为字符串或数字。如果元素是字符串，此运算符应显示字符串。如果是编号，操作员应按该数量调整文本位置；也就是说，它应翻译文本矩阵Tm。数字应为以文本空间单位的千分之一表示

因此，数字是对字母之间距离的调整