如何使用PDFTable或PDFTableExtractor类从java中的PDF文件中读取值?

如何使用PDFTable或PDFTableExtractor类从java中的PDF文件中读取值?,java,pdf,maven-2,maven-plugin,pdfbox,Java,Pdf,Maven 2,Maven Plugin,Pdfbox,我已尝试使用pdftextstripperbyare和PDPageContentStream类从pdf文件中提取数值。他们工作得很好 但我的要求是使用PDFTable或PDFTableExtractor类来阅读pdf内容。您能告诉我访问上述类需要使用的maven依赖项和jar文件是什么吗? 还要提到从特定位置获取值所需的方法 我还有一个疑问。我们可以按原样从PDF文件中提取表格格式的数据吗?我指的是带有行的数据和带有表行的列。如果一个页面包含一些文本和一个表,我们可以只读取表头和行吗我已在Git

我已尝试使用pdftextstripperbyarePDPageContentStream类从pdf文件中提取数值。他们工作得很好

但我的要求是使用PDFTablePDFTableExtractor类来阅读pdf内容。您能告诉我访问上述类需要使用的maven依赖项和jar文件是什么吗? 还要提到从特定位置获取值所需的方法


我还有一个疑问。我们可以按原样从PDF文件中提取表格格式的数据吗?我指的是带有行的数据和带有表行的列。如果一个页面包含一些文本和一个表,我们可以只读取表头和行吗我已在GitHub中上载了我的页面。点击从这张图中,我只需要总保费、GST和应付总额的值。请告诉我是否可能

PDFTable

我发现了两个PDFTable类:

com.lowagie.text.pdf.PdfPTable

com.itextpdf.text.pdf.PdfPTable
这两个类的文档(这可能有助于您学习所需的方法):

如果要使用此类,可以从以下位置将依赖项复制到pom.file:
-如本链接所述,此工件已移动到com.itextpdf

您可以在此处找到如何使用此类的示例:


首先,不要使用包
com.lowagie
该代码已经过时,不再受支持。此外,这段代码属于
iText
的早期版本

之后,对所有代码的知识产权进行了彻底的调查(因为iText有很多贡献者)。当您使用旧代码时,您可能(不知不觉地)正在使用您没有版权的代码

其次,如果您只想解决从PDF文档中提取数字和表格的问题,请查看
pdf2Data
。这是一个
iText
附加组件,使事情变得更简单

它为您提供了一个很好的UI,您可以在其中构建用于数据提取的模板。然后,您可以调用单个方法来将现有(XML)模板与输入PDF文档进行匹配,您将得到一个包含有关匹配的所有信息的数据结构


我使用ApachePDFBox(一个免费的库)进行PDF操作。idk它与您有多相关。ApachePDFBox包含PDPageContentStream,我已经尝试过了。它工作得很好!。但是在这里,我需要使用PDFTableExtractor来达到我的要求。这两个类
PDFTableExtractor
PDFTableExtractor
与pdfbox相关吗?不。它们不属于PDFBoxy。你在评论中写道,你被指示尝试
PDFTableExtractor
。在这种情况下,我想说,您不应该为学习maven和选择jdk而操心太多,而应该专注于让它以某种方式运行,看看它是否解决了请求。因此,最简单的方法是在IDE中创建一个非maven项目并附加jar文件。顺便说一句,有一个提取表的工具:tablajava。我不知道它是否有API。我不认为这是Vengat想要的,他要求表提取,但您的类是关于在PDF中创建表的。True@Tilmahauser我需要从PDF文件中读取值。这些值将是表格式的。由于不同文件中所需文本的位置不断变化,因此我无法使用普通方法,即读取整个内容并拆分所需内容或按文本的确切位置查找文本。我的一位高年级学生指示我尝试使用
PDFTableExtractor
类。我是新的pdf文件。