Ios 扫描时CGPDFScanner-\x15个字符_Ios_Pdf_Cgpdfscanner

Ios 扫描时CGPDFScanner-\x15个字符

ios pdf

Ios 扫描时CGPDFScanner-\x15个字符,ios,pdf,cgpdfscanner,Ios,Pdf,Cgpdfscanner,我正在尝试提取中第5页的文本。 pdf的字体为YLJAAA+CMSY10，没有映射（CMap），甚至没有编码（默认编码或/或差异）提取文本时，在字符串“tetex package”之后，CGPDFScanner返回多次遇到的“\x15”字符遇到此字符时，当前字体为上述字体，无法从pdf字符串中提取文本。这是什么\x15字符谢谢。我发现有2次（不是很多次）出现这种情况： [ (\025) ] TJ 这是一个八进制数字–这是一个十六进制的数字\x15 PDF中“YLJAA+CMSY10”的字体

我正在尝试提取中第5页的文本。
pdf的字体为YLJAAA+CMSY10，没有映射（CMap），甚至没有编码（默认编码或/或差异）
提取文本时，在字符串“tetex package”之后，CGPDFScanner返回多次遇到的“\x15”字符
遇到此字符时，当前字体为上述字体，无法从pdf字符串中提取文本。这是什么\x15字符

谢谢。

我发现有2次（不是很多次）出现这种情况：

[ (\025) ] TJ

这是一个八进制数字–这是一个十六进制的数字

\x15

PDF中“YLJAA+CMSY10”的字体定义没有特殊编码，因此其默认编码为“CMSY”（“计算机现代符号”）：

1140obj
“/YLJAAA+CMSY10”
/第一字符0
/Font0 R
/lastchar127
/宽度204 0 R
>>
2110 obj
“/YLJAAA+CMSY10”
/意大利-14
/StemV 85
/XHeight 430
>>
endobj

就其本身而言，这并不能说明什么是确定的：PDF制作者可以随意对字形和编码进行重新排序，只要它对嵌入的字体也这样做）。假设字体集没有重新排序，检查显示字符代码

0x1F

很可能大于或等于（Unicode U+2265）

Acrobat同意；检查PDF中的字体显示字符代码

（十进制）命名为“大于或等于”，看起来也一样。

但它位于第5页文本“tetex package”之后，后面没有项目符号。在那之后，它有一个通用电气公司的接线员。CGPDFScanner读取的数据不正确吗？这就是提供不完整和混乱信息的原因。我会调整我的答案（虽然大部分还是一样的）。我在问题中提到了。谢谢你的回答。这当然帮了大忙。：）

114 0 obj
<<
  /Type         /Font
  /Subtype      /Type1
  /BaseFont     210 0 R % -> "/YLJAAA+CMSY10"
  /FirstChar    0
  /FontDescriptor 211 0 R
  /LastChar     127
  /Widths       204 0 R
>>

211 0 obj
<<
  /Ascent       750
  /CapHeight    683
  /CharSet      (/bullet/greaterequal/arrowright/arrowdblright/element/negationslash/backslash/radical)
  /Descent      0
  /Flags        4
  /FontBBox     [ -29 -960 1116 775 ]
  /FontFile     205 0 R
  /FontName     210 0 R   % -> '/YLJAAA+CMSY10'
  /ItalicAngle  -14
  /StemV        85
  /XHeight      430
>>
endobj