PDF解码并在其中找到有用的数据

PDF解码并在其中找到有用的数据,pdf,decode,Pdf,Decode,我试图将PDF文件解码为有用的数据,但我遇到了一些坐标系问题 首先,我使用的数据:(我已经解码了) 我想得到灰色方块的坐标 我的问题是我找到了文本的坐标: 0 1.00057 -1 0 65.1595 353.15 Tm [(2)5.81146(.)2.90771(4)5.81146( )2.90771(t)2.90771(i)222]TJ 65.1595 = y 353.15 = x 但问题是正方形的坐标。我找到了正方形的颜色加上坐标: 0.753906 0.753906 0.75390

我试图将PDF文件解码为有用的数据,但我遇到了一些坐标系问题

首先,我使用的数据:(我已经解码了)

我想得到灰色方块的坐标

我的问题是我找到了文本的坐标:

0 1.00057 -1 0 65.1595 353.15 Tm
[(2)5.81146(.)2.90771(4)5.81146( )2.90771(t)2.90771(i)222]TJ 

65.1595 = y
353.15 = x
但问题是正方形的坐标。我找到了正方形的颜色加上坐标:

0.753906 0.753906 0.753906 rg
3039 200.914 817.996 1329 re
在PDF参考文件中,它说
re
使用
x,y,宽度,高度
,但正如您所见,3039远远大于353.15。我还看到Tm使用矩阵事物[[a,b,0],[c,d,0],[e,f,1]]

另一个问题是,这些矩形在某种程度上是错误的:

470.996 2934.91 1674 1329 re ---> beveilig.tech.pr
1327 1567.91 2102 1329 re  ---> beveilig.tech.th
1327 4301.91 817.996 1329 re ---> bbc ti
2183 4301.91 817.996 1329 re ---> b&o practicum
3039 200.914 817.996 1329 re ---> b&o theorie
我已经收集了0.753906 0.753906 0.753906 0.753906彩色正方形的所有坐标,下面是文本的名称。如您所见,这些坐标表示所有块的高度相等


有人能帮帮我吗?

原因在第一行——“0.12 0 0.12 0 0 cm”。此操作将变换矩阵和(简化)缩放所有后续操作中的x、y坐标设置为0.12。所以3039实际上是=3039*0.12=364.68。

原因在第一行——“0.1200.120cm”。此操作将变换矩阵和(简化)缩放所有后续操作中的x、y坐标设置为0.12。因此3039实际上是=3039*0.12=364.68。

在解析时,您确实需要跟踪这些值,因为您还可以获得相对移动(td),并且需要考虑许多其他值,以获得文本的正确轮廓矩形


这些值也可以通过Q命令弹出到堆栈上或堆栈下

您确实需要在解析时跟踪这些值,因为您还可以获得相对移动(td),并且需要考虑许多其他值以获得文本的正确轮廓矩形

这些值也可以通过Q命令弹出到堆栈上或堆栈下