如何使用PDFTable或PDFTableExtractor类从java中的PDF文件中读取值？_Java_Pdf_Maven 2_Maven Plugin_Pdfbox

如何使用PDFTable或PDFTableExtractor类从java中的PDF文件中读取值？

java pdf maven-2

如何使用PDFTable或PDFTableExtractor类从java中的PDF文件中读取值？,java,pdf,maven-2,maven-plugin,pdfbox,Java,Pdf,Maven 2,Maven Plugin,Pdfbox,我已尝试使用pdftextstripperbyare和PDPageContentStream类从pdf文件中提取数值。他们工作得很好但我的要求是使用PDFTable或PDFTableExtractor类来阅读pdf内容。您能告诉我访问上述类需要使用的maven依赖项和jar文件是什么吗？还要提到从特定位置获取值所需的方法我还有一个疑问。我们可以按原样从PDF文件中提取表格格式的数据吗？我指的是带有行的数据和带有表行的列。如果一个页面包含一些文本和一个表，我们可以只读取表头和行吗我已在Git

我已尝试使用pdftextstripperbyare和PDPageContentStream类从pdf文件中提取数值。他们工作得很好

但我的要求是使用PDFTable或PDFTableExtractor类来阅读pdf内容。您能告诉我访问上述类需要使用的maven依赖项和jar文件是什么吗？还要提到从特定位置获取值所需的方法

我还有一个疑问。我们可以按原样从PDF文件中提取表格格式的数据吗？我指的是带有行的数据和带有表行的列。如果一个页面包含一些文本和一个表，我们可以只读取表头和行吗我已在GitHub中上载了我的页面。点击从这张图中，我只需要总保费、GST和应付总额的值。请告诉我是否可能
PDFTable
我发现了两个PDFTable类：

com.lowagie.text.pdf.PdfPTable com.itextpdf.text.pdf.PdfPTable
这两个类的文档（这可能有助于您学习所需的方法）：

如果要使用此类，可以从以下位置将依赖项复制到pom.file：
-如本链接所述，此工件已移动到com.itextpdf
您可以在此处找到如何使用此类的示例：

首先，不要使用包
com.lowagie
该代码已经过时，不再受支持。此外，这段代码属于
iText
的早期版本
之后，对所有代码的知识产权进行了彻底的调查（因为iText有很多贡献者）。当您使用旧代码时，您可能（不知不觉地）正在使用您没有版权的代码
其次，如果您只想解决从PDF文档中提取数字和表格的问题，请查看
pdf2Data
。这是一个
iText
附加组件，使事情变得更简单
它为您提供了一个很好的UI，您可以在其中构建用于数据提取的模板。然后，您可以调用单个方法来将现有（XML）模板与输入PDF文档进行匹配，您将得到一个包含有关匹配的所有信息的数据结构

我使用ApachePDFBox（一个免费的库）进行PDF操作。idk它与您有多相关。ApachePDFBox包含PDPageContentStream，我已经尝试过了。它工作得很好！。但是在这里，我需要使用PDFTableExtractor来达到我的要求。这两个类
PDFTableExtractor
和
PDFTableExtractor
与pdfbox相关吗？不。它们不属于PDFBoxy。你在评论中写道，你被指示尝试
PDFTableExtractor
。在这种情况下，我想说，您不应该为学习maven和选择jdk而操心太多，而应该专注于让它以某种方式运行，看看它是否解决了请求。因此，最简单的方法是在IDE中创建一个非maven项目并附加jar文件。顺便说一句，有一个提取表的工具：tablajava。我不知道它是否有API。我不认为这是Vengat想要的，他要求表提取，但您的类是关于在PDF中创建表的。True@Tilmahauser我需要从PDF文件中读取值。这些值将是表格式的。由于不同文件中所需文本的位置不断变化，因此我无法使用普通方法，即读取整个内容并拆分所需内容或按文本的确切位置查找文本。我的一位高年级学生指示我尝试使用
PDFTableExtractor
类。我是新的pdf文件。