Java 如何使用iText库获取pdf文件的给定段落内容?

Java 如何使用iText库获取pdf文件的给定段落内容?,java,pdf,itext,extract,Java,Pdf,Itext,Extract,是否有任何方法可以使用iText library获取pdf文件中给定段落的段落数或内容?。我在一些代码中看到了一些类,如段落、块,以创建新的pdf文件,但我找不到任何方法在阅读文件中获得这些类。每个想法都很受欢迎您所说的PDF是带标签的PDF吗?如果不是,那么你对PDF的假设是错误的。在PDF中,内容绘制在页面上。例如:iText PdfPTable转换为文本状态运算符,用于将文本片段绘制到画布,以及图形状态运算符,用于绘制路径和形状。如果PDF没有标记,则这些行不知道它们是表格的边框;一个词不

是否有任何方法可以使用iText library获取pdf文件中给定段落的段落数或内容?。我在一些代码中看到了一些类,如段落、块,以创建新的pdf文件,但我找不到任何方法在阅读文件中获得这些类。每个想法都很受欢迎

您所说的PDF是带标签的PDF吗?如果不是,那么你对PDF的假设是错误的。在PDF中,内容绘制在页面上。例如:iText PdfPTable转换为文本状态运算符,用于将文本片段绘制到画布,以及图形状态运算符,用于绘制路径和形状。如果PDF没有标记,则这些行不知道它们是表格的边框;一个词不知道它属于哪个细胞

段落也是如此:文本片段不知道它是否属于句子、段落、标题行

由于PDF的本质,您所寻找的可能是不可能的(使用iText或任何其他软件产品),或者可能需要启发式(人工智能)来检查所有文本状态运算符和内容的语义,以获得模拟人类如何解释文本的结果

如果你的PDF被正确地标记,这是很容易实现的。参见示例