Java：在检测PDF、备选方案/解决方案中的表时，表格猜测错误？_Java_Java 11_Tabula

Java：在检测PDF、备选方案/解决方案中的表时，表格猜测错误？

java

Java：在检测PDF、备选方案/解决方案中的表时，表格猜测错误？,java,java-11,tabula,Java,Java 11,Tabula,在我的java应用程序中，我使用tablaPDF（来自Technology.tabla）从PDF中提取表数据。tabla首先将PDF视为一个坐标空间，其中每个字符在页面上都有一个X和Y坐标然后，它可以使用NurminemDetectionAlgorithm“猜测”它认为PDF中的表存在的区域。基本上，它为您提供了矩形左上角的X/Y坐标，并提供了矩形的宽度和高度。期望这个矩形覆盖整个表 tabla然后过滤掉所有字符，仅过滤出矩形区域中具有X/Y坐标的字符在大多数情况下，这在PDF上工作对我来说

在我的java应用程序中，我使用tablaPDF（来自Technology.tabla）从PDF中提取表数据。tabla首先将PDF视为一个坐标空间，其中每个字符在页面上都有一个X和Y坐标

然后，它可以使用NurminemDetectionAlgorithm“猜测”它认为PDF中的表存在的区域。基本上，它为您提供了矩形左上角的X/Y坐标，并提供了矩形的宽度和高度。期望这个矩形覆盖整个表

tabla然后过滤掉所有字符，仅过滤出矩形区域中具有X/Y坐标的字符

在大多数情况下，这在PDF上工作对我来说很好，但是在一些情况下，我发现它给出的最初猜测是错误的，结果只是提取了空白的“”字符。例如，我在AdobePDF reader上检查了猜测的X/Y位置，页面甚至不够大，无法让X/Y位置落在页面上（不确定是否移动到第二页，但无论如何都是错误的）

对于使用tabla（或任何替代方法）的人，您如何解释这些“错误猜测”？有没有办法尝试更好的第二次猜测？你是否有其他的检测算法？等等