Java PdfBox从pdf中提取具有相同字体系列的文本_Java_Pdf_Pdfbox_Extraction

Java PdfBox从pdf中提取具有相同字体系列的文本

java pdf

Java PdfBox从pdf中提取具有相同字体系列的文本,java,pdf,pdfbox,extraction,Java,Pdf,Pdfbox,Extraction,我需要从pdf中提取一块文本。此文本与特征具有相同的字体系列。有什么想法吗？干杯编辑：让我用另一种方式问这个问题：如何从pdf页面中提取粗体文本 public String pdftoText(String fileName){ try { File f = new File(fileName); if (!f.isFile()) { System.out.println("File not exist.");

我需要从pdf中提取一块文本。此文本与特征具有相同的字体系列。有什么想法吗？干杯

编辑：让我用另一种方式问这个问题：如何从pdf页面中提取粗体文本

public String pdftoText(String fileName){
    try {
        File f = new File(fileName);
        if (!f.isFile()) {
            System.out.println("File not exist.");
            return null;
        }
        parser = new PDFParser(new FileInputStream(f));
        parser.parse();
        cosDoc = parser.getDocument();
        pdfStripper = new PDFTextStripper();
        pdDoc = new PDDocument(cosDoc);
        parsedText = pdfStripper.getText(pdDoc);
        cosDoc.close();
        pdDoc.close();
        return parsedText;
    } catch (IOException ex) {
        Logger.getLogger(PDFTextParser.class.getName()).log(Level.SEVERE, null, ex);
        return null;
    }
}

运行前：将pdfbox.jar添加到项目中

您可以从PDFTextStripper派生您自己的文本提取类，并在其中过滤要添加到提取文本中的数据。不过，根据您的源PDF，实际问题可能是识别粗体文字。有时，如果使用实际的粗体字体来宣布其粗体，这是很容易的。但是，有时字体不能说明问题，有时使用机制来模拟粗体，例如使用小偏移量的双绘图或使用较大笔划值的绘图。我不确定PDFBox是否能够识别所有这些现成的技术。您找到解决方案了吗？这根本不会检查op要求的粗体等字体特征，是吗？