用PHP解析PDF中的表

用PHP解析PDF中的表,php,pdf,timetable,Php,Pdf,Timetable,我一直在想这个问题,但我不能让它完全发挥作用。所以我想用PHP“导入”(上传和预处理/标准化数据)一个PDF标准格式的时间表 已经尝试了几个库(smalot/pdfparser、gufy/pdftohtml-php、tecnickcom/tc-lib-pdf解析器和一些小类)来阅读pdf,但我似乎只得到了简单的文本,最多X-Y位置和段落内容。我目前正试图在某种程度上组织(x,y,content)中的数据,但我真的在寻找一种方法来获得HTML/XML中的类似表的结构 将PDF转换为XLSX会导致时

我一直在想这个问题,但我不能让它完全发挥作用。所以我想用PHP“导入”(上传和预处理/标准化数据)一个PDF标准格式的时间表

已经尝试了几个库(smalot/pdfparser、gufy/pdftohtml-php、tecnickcom/tc-lib-pdf解析器和一些小类)来阅读pdf,但我似乎只得到了简单的文本,最多X-Y位置和段落内容。我目前正试图在某种程度上组织(x,y,content)中的数据,但我真的在寻找一种方法来获得HTML/XML中的类似表的结构


将PDF转换为XLSX会导致时间表中元素的位置不一致。也许将其转换成更好的格式,然后用PHP进行解释。

但是PDF是这样构建的:文本的某些部分和(x,y)坐标。直线、矩形和(x,y)坐标。它不像带有表、头或任何逻辑结构的html。解析PDF更像是打印输出的OCR,没有结构。

我可能忽略了这一点:-?。谢谢。我们使用
pdftotext-layout-nopgbrk
将PDF转换为文本,然后查找预期内容,以在文档中找到我们的方向。