Java 获取pdf中包含特定单词的页码

Java 获取pdf中包含特定单词的页码,java,pdf,pdfbox,Java,Pdf,Pdfbox,如何在java的pdfbox API中获取包含pdf中特定单词的页码 我能够通过以下方式阅读word: PDFTextStripper s = new PDFTextStripper(); String contents = s.getText(pdoc); if(contents.contains("SUBSCRIPTION DETAILS")){ ... } 但无法找到包含此单词的页码 提前感谢。PDFTextStripper允许您阅读准确的页面。因此,您需要遍历所有页面,并检查页面是

如何在java的pdfbox API中获取包含pdf中特定单词的页码

我能够通过以下方式阅读word:

PDFTextStripper s = new PDFTextStripper();
String contents = s.getText(pdoc);  
if(contents.contains("SUBSCRIPTION DETAILS")){
...
}
但无法找到包含此单词的页码


提前感谢。

PDFTextStripper
允许您阅读准确的页面。因此,您需要遍历所有页面,并检查页面是否包含特定字符串:

PDDocument pdoc = ...;
for(int pageNumber = 1; pageNumber < pdoc.getPageCount(); i++){

    PDFTextStripper s = new PDFTextStripper();
    s.setStartPage(pageNumber);
    s.setEndPage(pageNumber);
    String pageText = reader.getText(pdoc);
    String contents = s.getText(pdoc);  
    if(contents.contains("SUBSCRIPTION DETAILS")){
    ...
    }
}
pdc=。。。;
对于(int pageNumber=1;pageNumber
感谢您的回复。但我想要包含该文本的页码。如果你清楚我的问题,请告诉我。你必须反复阅读每一页并检查每一页。请看代码。你能告诉我如何在同一页的pdf中找到相同文本的字体吗。提前感谢在您的代码中,pageNumber的初始值必须是1,而不是0,因为起始/结束页是基于1的。