如何检测PDF中的列表和表格?

如何检测PDF中的列表和表格?,pdf,itext,adobe,accessibility,pdfbox,Pdf,Itext,Adobe,Accessibility,Pdfbox,当我在Adobe中使用自动标记选项时,它会自动检测列表和表格并对其进行标记。它如何知道它是一个列表、表格、图像和段落。它是如何准确检测的 现在,我必须使用代码在我的PDF中检测类似的内容。我尝试使用内容流信息进行检测,但没有发现任何线索 这对我会很有帮助的。我怎样才能做到这一点 我不知道AdobeAcrobat是怎么知道的。我想到的选项是:A)将有问题的页面呈现为位图,并应用基于图像的表识别(当你在谷歌上搜索时,你会得到很多文章和项目)。B) 分析来自许多不同PDF生成器的PDF,并在用于生成列

当我在Adobe中使用自动标记选项时,它会自动检测列表和表格并对其进行标记。它如何知道它是一个列表、表格、图像和段落。它是如何准确检测的

现在,我必须使用代码在我的PDF中检测类似的内容。我尝试使用内容流信息进行检测,但没有发现任何线索


这对我会很有帮助的。我怎样才能做到这一点

我不知道AdobeAcrobat是怎么知道的。我想到的选项是:A)将有问题的页面呈现为位图,并应用基于图像的表识别(当你在谷歌上搜索时,你会得到很多文章和项目)。B) 分析来自许多不同PDF生成器的PDF,并在用于生成列表和表格的内容流指令中查找典型结构。-当然,人们可能希望将这些选项结合起来。有一个巨大的项目做了类似的事情:tabla。还有一个新的亚马逊服务,amazon Textract,所以你可能正在重新发明轮子。