Ios 扫描时CGPDFScanner-\x15个字符
我正在尝试提取中第5页的文本。Ios 扫描时CGPDFScanner-\x15个字符,ios,pdf,cgpdfscanner,Ios,Pdf,Cgpdfscanner,我正在尝试提取中第5页的文本。 pdf的字体为YLJAAA+CMSY10,没有映射(CMap),甚至没有编码(默认编码或/或差异)提取文本时,在字符串“tetex package”之后,CGPDFScanner返回多次遇到的“\x15”字符遇到此字符时,当前字体为上述字体,无法从pdf字符串中提取文本。 这是什么\x15字符 谢谢。我发现有2次(不是很多次)出现这种情况: [ (\025) ] TJ 这是一个八进制数字–这是一个十六进制的数字\x15 PDF中“YLJAA+CMSY10”的字体
pdf的字体为YLJAAA+CMSY10,没有映射(CMap),甚至没有编码(默认编码或/或差异)
提取文本时,在字符串“tetex package”之后,CGPDFScanner返回多次遇到的“\x15”字符
遇到此字符时,当前字体为上述字体,无法从pdf字符串中提取文本。 这是什么\x15字符 谢谢。我发现有2次(不是很多次)出现这种情况:
[ (\025) ] TJ
这是一个八进制数字–这是一个十六进制的数字\x15
PDF中“YLJAA+CMSY10”的字体定义没有特殊编码,因此其默认编码为“CMSY”(“计算机现代符号”):
1140obj
“/YLJAAA+CMSY10”
/第一字符0
/Font0 R
/lastchar127
/宽度204 0 R
>>
2110 obj
“/YLJAAA+CMSY10”
/意大利-14
/StemV 85
/XHeight 430
>>
endobj
就其本身而言,这并不能说明什么是确定的:PDF制作者可以随意对字形和编码进行重新排序,只要它对嵌入的字体也这样做)。假设字体集没有重新排序,检查显示字符代码0x1F
很可能大于或等于(Unicode U+2265)
Acrobat同意;检查PDF中的字体显示字符代码
21
(十进制)命名为“大于或等于”,看起来也一样。但它位于第5页文本“tetex package”之后,后面没有项目符号。在那之后,它有一个通用电气公司的接线员。CGPDFScanner读取的数据不正确吗?这就是提供不完整和混乱信息的原因。我会调整我的答案(虽然大部分还是一样的)。我在问题中提到了。谢谢你的回答。这当然帮了大忙。:)
114 0 obj
<<
/Type /Font
/Subtype /Type1
/BaseFont 210 0 R % -> "/YLJAAA+CMSY10"
/FirstChar 0
/FontDescriptor 211 0 R
/LastChar 127
/Widths 204 0 R
>>
211 0 obj
<<
/Ascent 750
/CapHeight 683
/CharSet (/bullet/greaterequal/arrowright/arrowdblright/element/negationslash/backslash/radical)
/Descent 0
/Flags 4
/FontBBox [ -29 -960 1116 775 ]
/FontFile 205 0 R
/FontName 210 0 R % -> '/YLJAAA+CMSY10'
/ItalicAngle -14
/StemV 85
/XHeight 430
>>
endobj