Java 如何使用iText库获取pdf文件的给定段落内容？_Java_Pdf_Itext_Extract

Java 如何使用iText库获取pdf文件的给定段落内容？

java pdf itext

Java 如何使用iText库获取pdf文件的给定段落内容？,java,pdf,itext,extract,Java,Pdf,Itext,Extract,是否有任何方法可以使用iText library获取pdf文件中给定段落的段落数或内容？。我在一些代码中看到了一些类，如段落、块，以创建新的pdf文件，但我找不到任何方法在阅读文件中获得这些类。每个想法都很受欢迎您所说的PDF是带标签的PDF吗？如果不是，那么你对PDF的假设是错误的。在PDF中，内容绘制在页面上。例如：iText PdfPTable转换为文本状态运算符，用于将文本片段绘制到画布，以及图形状态运算符，用于绘制路径和形状。如果PDF没有标记，则这些行不知道它们是表格的边框；一个词不

是否有任何方法可以使用iText library获取pdf文件中给定段落的段落数或内容？。我在一些代码中看到了一些类，如段落、块，以创建新的pdf文件，但我找不到任何方法在阅读文件中获得这些类。每个想法都很受欢迎

您所说的PDF是带标签的PDF吗？如果不是，那么你对PDF的假设是错误的。在PDF中，内容绘制在页面上。例如：iText PdfPTable转换为文本状态运算符，用于将文本片段绘制到画布，以及图形状态运算符，用于绘制路径和形状。如果PDF没有标记，则这些行不知道它们是表格的边框；一个词不知道它属于哪个细胞

段落也是如此：文本片段不知道它是否属于句子、段落、标题行

由于PDF的本质，您所寻找的可能是不可能的（使用iText或任何其他软件产品），或者可能需要启发式（人工智能）来检查所有文本状态运算符和内容的语义，以获得模拟人类如何解释文本的结果

如果你的PDF被正确地标记，这是很容易实现的。参见示例