如何使用java将多个pdf文件中的信息提取到文本中

如何使用java将多个pdf文件中的信息提取到文本中,java,Java,我有多个pdf格式的银行对账单,我想将超过30美元的交易提取到一个文本文件中。最好的方法是什么?我建议您看看。 我使用这个库处理我自己的银行对账单。它相当容易使用: 这就是如何从PDF文档中提取文本: public String getData(String fileName) throws IOException { PDFTextStripper pdfStripper; PDDocument pdDoc; COSDocument co

我有多个pdf格式的银行对账单,我想将超过30美元的交易提取到一个文本文件中。最好的方法是什么?

我建议您看看。 我使用这个库处理我自己的银行对账单。它相当容易使用:

这就是如何从PDF文档中提取文本:

    public String getData(String fileName) throws IOException {
        PDFTextStripper pdfStripper;
        PDDocument pdDoc;
        COSDocument cosDoc;
        ClassPathResource accountStatement = new ClassPathResource(fileName);

        PDFParser parser = new PDFParser(accountStatement.getInputStream());
        parser.parse();
        cosDoc = parser.getDocument();
        pdfStripper = new PDFTextStripper();
        pdDoc = new PDDocument(cosDoc);
        pdfStripper.setStartPage(1);
        pdfStripper.setEndPage(2);
        String text = pdfStripper.getText(pdDoc);
        pdDoc.close();
        return text;
}

ClassPathResource类来自Spring框架,但您可以用任何类似的东西来替换它。

您可以尝试PDFBox,但老实说,您需要努力尝试一些东西,如果遇到特定问题,请返回。