Parsing 搞不懂什么是符号,在pdf解析中

Parsing 搞不懂什么是符号,在pdf解析中,parsing,pdf,Parsing,Pdf,//pdf中解码文本流的文本对象 q 0.750 0.000 0.000 -0.750 0.000 841.890 cm 0.000 g /F10 10.667 Tf 0 Tr 0.000 Tc BT 1 0 0 -1 189.306 981.342 Tm [<0003><0047><0052>-1<0048><0056><0051>33<006e>11<0057><0003><00

//pdf中解码文本流的文本对象

q
0.750 0.000 0.000 -0.750 0.000 841.890 cm
0.000 g
/F10 10.667 Tf
0 Tr
0.000 Tc
BT
1 0 0 -1 189.306 981.342 Tm
[<0003><0047><0052>-1<0048><0056><0051>33<006e>11<0057><0003><0052><0051><004f><005c><0003><004f><0052>7<005a>9<0048><0055><0003><005c>10<0052><0058><0055><0003><0046>5<0052><0056><0057><0056><0003><0003><0049>12<0052><0055><0003><0046>5<0052><0051><0056><0044><0051>3<0057><0056>8<0011>]TJ
ET
Q
q
0.7500.0000.000-0.7500.000841.890厘米
0.000克
/F10 10.667 Tf
0 Tr
0.000 Tc
英国电信
100-1189.306981.342 Tm
[-133117910512538]TJ
ET
Q

上述TJ条目的字形是什么?如何单独识别字形?

您必须查找引用字体F10的属性。它似乎有一个Identity-H编码,表示一个公共的内部TTF标志符ID映射。但是这种外观可能会欺骗。在放置此文本时,我们需要从一个glyph到另一个glyph计算Tm和Trm,我要问的是,是将十六进制字符串从一个整数转换为另一个整数,还是将一个2字节的十六进制字符串作为一个单位来计算Trm。您必须查找引用字体F10的属性。它似乎有两个字节的编码,但也可能是单字节编码,每隔一个位置使用0x00的标志符号。或者它可能是一种混合编码。根据这一点,您将在这些字符串中获得不同数量的glyph。