Java 从PDF-iText中提取特定文本_Java_Pdf_Text_Itext

Java 从PDF-iText中提取特定文本

java pdf text itext

Java 从PDF-iText中提取特定文本,java,pdf,text,itext,Java,Pdf,Text,Itext,我目前正在阅读PDF文件中的一页。我总是想从页面中提取特定的文本。如果我知道PDF的内部结构，我能很容易地做到这一点吗？如果是，如何进行？以下是我所拥有的： public void read(PdfReader reader) throws IOException{ StringBuilder sb = new StringBuilder(); sb.append(PdfTextExtractor.getTextFromPage(reader, 1)); System.

我目前正在阅读PDF文件中的一页。我总是想从页面中提取特定的文本。如果我知道PDF的内部结构，我能很容易地做到这一点吗？如果是，如何进行？以下是我所拥有的：

public  void read(PdfReader reader) throws IOException{
    StringBuilder sb = new StringBuilder();
    sb.append(PdfTextExtractor.getTextFromPage(reader, 1));
    System.out.println(sb.toString());
    System.out.println("Text Line: " + sb.toString().substring(43,47));

}

线路

System.out.println("Text Line: " + sb.toString().substring(43,47));

这是我所关心的。除了使用子字符串，还有更好的方法吗

从PDF中提取文本：

SUPPLEMENT # :
1
RC :
2
D  :
0
R :
2
W: TOTAL :
0 0

您希望提取特定文本。该特定文本是如何指定的？它是唯一在固定坐标下的矩形中找到的文本吗？它是唯一使用给定字体或颜色的文本吗？它是唯一的其他标签文本之后的文本吗？对于所有这些问题，对于表现良好的pdf有一些解决方案，但你必须更具体一些，目前这个问题太广泛了。现在，我想读取RC:和d:always之后的值。在这种情况下，我将在该字符串中搜索“RC:”、“d:”和“R:”，并分别选择介于两者之间的文本。