Java 获取pdf中包含特定单词的页码_Java_Pdf_Pdfbox

Java 获取pdf中包含特定单词的页码

java pdf

Java 获取pdf中包含特定单词的页码,java,pdf,pdfbox,Java,Pdf,Pdfbox,如何在java的pdfbox API中获取包含pdf中特定单词的页码我能够通过以下方式阅读word： PDFTextStripper s = new PDFTextStripper(); String contents = s.getText(pdoc); if(contents.contains("SUBSCRIPTION DETAILS")){ ... } 但无法找到包含此单词的页码提前感谢。PDFTextStripper允许您阅读准确的页面。因此，您需要遍历所有页面，并检查页面是

如何在java的pdfbox API中获取包含pdf中特定单词的页码

我能够通过以下方式阅读word：

PDFTextStripper s = new PDFTextStripper();
String contents = s.getText(pdoc);  
if(contents.contains("SUBSCRIPTION DETAILS")){
...
}

但无法找到包含此单词的页码

提前感谢。

PDFTextStripper

允许您阅读准确的页面。因此，您需要遍历所有页面，并检查页面是否包含特定字符串：

PDDocument pdoc = ...;
for(int pageNumber = 1; pageNumber < pdoc.getPageCount(); i++){

    PDFTextStripper s = new PDFTextStripper();
    s.setStartPage(pageNumber);
    s.setEndPage(pageNumber);
    String pageText = reader.getText(pdoc);
    String contents = s.getText(pdoc);  
    if(contents.contains("SUBSCRIPTION DETAILS")){
    ...
    }
}

pdc=。。。；
对于（int pageNumber=1；pageNumber

感谢您的回复。但我想要包含该文本的页码。如果你清楚我的问题，请告诉我。你必须反复阅读每一页并检查每一页。请看代码。你能告诉我如何在同一页的pdf中找到相同文本的字体吗。提前感谢在您的代码中，pageNumber的初始值必须是1，而不是0，因为起始/结束页是基于1的。