Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/ios/101.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
iOS PDF到纯文本解析器_Ios_Pdf_Text_Extract_Cgpdf - Fatal编程技术网

iOS PDF到纯文本解析器

iOS PDF到纯文本解析器,ios,pdf,text,extract,cgpdf,Ios,Pdf,Text,Extract,Cgpdf,在这个问题上我完全不知所措。我已经阅读了这里几乎每一篇关于它的帖子,所以,如果有人能把我推向正确的方向,我将非常感激 我有一个PDF,我想提取它的文本,我只对单词和空格感兴趣。我已经安装了一个CGPDFScanner及其回调方法。我所读到的是,我只需要考虑4个运算符TJ,Tj,QUT(′)和Doul QueUT(),就提取文本而言。 我想我还需要跟踪文本空间,以便能够确定字母是应该放在一起形成一个单词,还是应该用空格分隔。但我不知道我必须如何做到这一点 在PDF中,所有文本均采用以下格式: [(

在这个问题上我完全不知所措。我已经阅读了这里几乎每一篇关于它的帖子,所以,如果有人能把我推向正确的方向,我将非常感激

我有一个PDF,我想提取它的文本,我只对单词和空格感兴趣。我已经安装了一个CGPDFScanner及其回调方法。我所读到的是,我只需要考虑4个运算符TJ,Tj,QUT(′)和Doul QueUT(),就提取文本而言。

我想我还需要跟踪文本空间,以便能够确定字母是应该放在一起形成一个单词,还是应该用空格分隔。但我不知道我必须如何做到这一点

在PDF中,所有文本均采用以下格式:

[(X)-24.2524(X)-24.2524(X)-24.2524(Y)-24.2524(Y)-24.2524]TJ
但我还没有弄明白(使用PDF规范)这些数字的含义。有人在SO上说,你不应该害怕PDF规范,但坦率地说,我觉得它们不容易阅读/理解

我研究了PDFKitten代码,这很有帮助


任何帮助都将不胜感激。

我无法为您提供如何从PDF中提取单词的建议,但是

[(X)-24.2524(X)-24.2524(X)-24.2524(Y)-24.2524(Y)-24.2524]TJ
例如,在“9.4.3显示运算符的文本”一节中进行了说明。
TJ
运算符的说明如下:

显示一个或多个文本字符串,允许单个glyph定位。 数组的每个元素应为字符串或数字。如果 元素是字符串,此运算符应显示字符串。如果是 编号,操作员应按该数量调整文本位置; 也就是说,它应翻译文本矩阵Tm。数字应为 以文本空间单位的千分之一表示

因此,数字是对字母之间距离的调整