Ios 扫描时CGPDFScanner-\x15个字符

Ios 扫描时CGPDFScanner-\x15个字符,ios,pdf,cgpdfscanner,Ios,Pdf,Cgpdfscanner,我正在尝试提取中第5页的文本。 pdf的字体为YLJAAA+CMSY10,没有映射(CMap),甚至没有编码(默认编码或/或差异)提取文本时,在字符串“tetex package”之后,CGPDFScanner返回多次遇到的“\x15”字符遇到此字符时,当前字体为上述字体,无法从pdf字符串中提取文本。 这是什么\x15字符 谢谢。我发现有2次(不是很多次)出现这种情况: [ (\025) ] TJ 这是一个八进制数字–这是一个十六进制的数字\x15 PDF中“YLJAA+CMSY10”的字体

我正在尝试提取中第5页的文本。
pdf的字体为YLJAAA+CMSY10,没有映射(CMap),甚至没有编码(默认编码或/或差异)
提取文本时,在字符串“tetex package”之后,CGPDFScanner返回多次遇到的“\x15”字符
遇到此字符时,当前字体为上述字体,无法从pdf字符串中提取文本。 这是什么\x15字符

谢谢。

我发现有2次(不是很多次)出现这种情况:

[ (\025) ] TJ
这是一个八进制数字–这是一个十六进制的数字
\x15

PDF中“YLJAA+CMSY10”的字体定义没有特殊编码,因此其默认编码为“CMSY”(“计算机现代符号”):

1140obj
“/YLJAAA+CMSY10”
/第一字符0
/Font0 R
/lastchar127
/宽度204 0 R
>>
2110 obj
“/YLJAAA+CMSY10”
/意大利-14
/StemV 85
/XHeight 430
>>
endobj
就其本身而言,这并不能说明什么是确定的:PDF制作者可以随意对字形和编码进行重新排序,只要它对嵌入的字体也这样做)。假设字体集没有重新排序,检查显示字符代码
0x1F
很可能大于或等于(Unicode U+2265)


Acrobat同意;检查PDF中的字体显示字符代码
21
(十进制)命名为“大于或等于”,看起来也一样。

但它位于第5页文本“tetex package”之后,后面没有项目符号。在那之后,它有一个通用电气公司的接线员。CGPDFScanner读取的数据不正确吗?这就是提供不完整和混乱信息的原因。我会调整我的答案(虽然大部分还是一样的)。我在问题中提到了。谢谢你的回答。这当然帮了大忙。:)
114 0 obj
<<
  /Type         /Font
  /Subtype      /Type1
  /BaseFont     210 0 R % -> "/YLJAAA+CMSY10"
  /FirstChar    0
  /FontDescriptor 211 0 R
  /LastChar     127
  /Widths       204 0 R
>>

211 0 obj
<<
  /Ascent       750
  /CapHeight    683
  /CharSet      (/bullet/greaterequal/arrowright/arrowdblright/element/negationslash/backslash/radical)
  /Descent      0
  /Flags        4
  /FontBBox     [ -29 -960 1116 775 ]
  /FontFile     205 0 R
  /FontName     210 0 R   % -> '/YLJAAA+CMSY10'
  /ItalicAngle  -14
  /StemV        85
  /XHeight      430
>>
endobj