Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/314.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/xpath/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 使用PDFBox解析PDF文件-列重叠_Java_Parsing_Pdf_Pdfbox - Fatal编程技术网

Java 使用PDFBox解析PDF文件-列重叠

Java 使用PDFBox解析PDF文件-列重叠,java,parsing,pdf,pdfbox,Java,Parsing,Pdf,Pdfbox,我有一个PDF文件,我需要用布局解析它。我使用ApachePDFBox解析PDF,并使用PDFLayoutTextStripper类进行布局 我给出了一个示例,来自示例PDF图像。第120.01.191行;带有文本的列(以“LODOS KUNDURA-NEVZAT BALIKÇI AYAK.İML”开头)溢出到下一列,因此,当应用程序读取下一列时,我得到了一个结果,如“.TAO 3 P4.4 S.a 94 T9”,66'. 问题是第二列和第三列合并为一列。我希望将它们分别命名为“LODOS

我有一个PDF文件,我需要用布局解析它。我使用ApachePDFBox解析PDF,并使用PDFLayoutTextStripper类进行布局



我给出了一个示例,来自示例PDF图像。第120.01.191行;带有文本的列(以“LODOS KUNDURA-NEVZAT BALIKÇI AYAK.İML”开头)溢出到下一列,因此,当应用程序读取下一列时,我得到了一个结果,如“.TAO 3 P4.4 S.a 94 T9”,66'. 问题是第二列和第三列合并为一列。我希望将它们分别命名为“LODOS KUNDURA-NEVZAT BALIKİI AYAK.İMLAT PAS./344949.66”


有没有办法避免这个问题?提前感谢。

如果您使用的是
PDFLayoutTextStripper
,那么您需要一种表示法,该表示法尝试将字符放置在它们实际所在的位置。在您的案例中,存在重叠。因此,重叠的文本片段很有可能被彼此弄乱。(部分损坏似乎是不必要的,但我怀疑是否有一种简单的方法可以获得您想要的结果。)不过,一个选项可能是忽略不可见的字符,至少如果您可以限制自己,例如由于剪辑路径而不可见。如果您使用的是
PDFLayoutTextStripper
,然后,您需要一个表示,它尝试将字符放置在它们实际所在的位置。在您的案例中,存在重叠。因此,重叠的文本片段很有可能被彼此弄乱。(部分损坏似乎是不必要的,但我怀疑是否有一种简单的方法可以获得您想要的结果。)但是,一个选项可能是忽略不可见的字符,至少如果可以限制自己,例如由于剪辑路径而不可见。