Java 从PDF-iText中提取特定文本

Java 从PDF-iText中提取特定文本,java,pdf,text,itext,Java,Pdf,Text,Itext,我目前正在阅读PDF文件中的一页。我总是想从页面中提取特定的文本。如果我知道PDF的内部结构,我能很容易地做到这一点吗?如果是,如何进行?以下是我所拥有的: public void read(PdfReader reader) throws IOException{ StringBuilder sb = new StringBuilder(); sb.append(PdfTextExtractor.getTextFromPage(reader, 1)); System.

我目前正在阅读PDF文件中的一页。我总是想从页面中提取特定的文本。如果我知道PDF的内部结构,我能很容易地做到这一点吗?如果是,如何进行?以下是我所拥有的:

public  void read(PdfReader reader) throws IOException{
    StringBuilder sb = new StringBuilder();
    sb.append(PdfTextExtractor.getTextFromPage(reader, 1));
    System.out.println(sb.toString());
    System.out.println("Text Line: " + sb.toString().substring(43,47));

}
线路

System.out.println("Text Line: " + sb.toString().substring(43,47));
这是我所关心的。除了使用子字符串,还有更好的方法吗

从PDF中提取文本:

SUPPLEMENT # :
1
RC :
2
D  :
0
R :
2
W: TOTAL :
0 0

您希望提取特定文本。该特定文本是如何指定的?它是唯一在固定坐标下的矩形中找到的文本吗?它是唯一使用给定字体或颜色的文本吗?它是唯一的其他标签文本之后的文本吗?对于所有这些问题,对于表现良好的pdf有一些解决方案,但你必须更具体一些,目前这个问题太广泛了。现在,我想读取RC:和d:always之后的值。在这种情况下,我将在该字符串中搜索“RC:”、“d:”和“R:”,并分别选择介于两者之间的文本。