Java:在检测PDF、备选方案/解决方案中的表时,表格猜测错误?

Java:在检测PDF、备选方案/解决方案中的表时,表格猜测错误?,java,java-11,tabula,Java,Java 11,Tabula,在我的java应用程序中,我使用tablaPDF(来自Technology.tabla)从PDF中提取表数据。tabla首先将PDF视为一个坐标空间,其中每个字符在页面上都有一个X和Y坐标 然后,它可以使用NurminemDetectionAlgorithm“猜测”它认为PDF中的表存在的区域。基本上,它为您提供了矩形左上角的X/Y坐标,并提供了矩形的宽度和高度。期望这个矩形覆盖整个表 tabla然后过滤掉所有字符,仅过滤出矩形区域中具有X/Y坐标的字符 在大多数情况下,这在PDF上工作对我来说

在我的java应用程序中,我使用tablaPDF(来自Technology.tabla)从PDF中提取表数据。tabla首先将PDF视为一个坐标空间,其中每个字符在页面上都有一个X和Y坐标

然后,它可以使用NurminemDetectionAlgorithm“猜测”它认为PDF中的表存在的区域。基本上,它为您提供了矩形左上角的X/Y坐标,并提供了矩形的宽度和高度。期望这个矩形覆盖整个表

tabla然后过滤掉所有字符,仅过滤出矩形区域中具有X/Y坐标的字符

在大多数情况下,这在PDF上工作对我来说很好,但是在一些情况下,我发现它给出的最初猜测是错误的,结果只是提取了空白的“”字符。例如,我在AdobePDF reader上检查了猜测的X/Y位置,页面甚至不够大,无法让X/Y位置落在页面上(不确定是否移动到第二页,但无论如何都是错误的)

对于使用tabla(或任何替代方法)的人,您如何解释这些“错误猜测”?有没有办法尝试更好的第二次猜测?你是否有其他的检测算法?等等