如何使用java将多个pdf文件中的信息提取到文本中_Java

如何使用java将多个pdf文件中的信息提取到文本中

java

如何使用java将多个pdf文件中的信息提取到文本中,java,Java,我有多个pdf格式的银行对账单，我想将超过30美元的交易提取到一个文本文件中。最好的方法是什么？我建议您看看。我使用这个库处理我自己的银行对账单。它相当容易使用：这就是如何从PDF文档中提取文本： public String getData(String fileName) throws IOException { PDFTextStripper pdfStripper; PDDocument pdDoc; COSDocument co

我有多个pdf格式的银行对账单，我想将超过30美元的交易提取到一个文本文件中。最好的方法是什么？

我建议您看看。我使用这个库处理我自己的银行对账单。它相当容易使用：

这就是如何从PDF文档中提取文本：

    public String getData(String fileName) throws IOException {
        PDFTextStripper pdfStripper;
        PDDocument pdDoc;
        COSDocument cosDoc;
        ClassPathResource accountStatement = new ClassPathResource(fileName);

        PDFParser parser = new PDFParser(accountStatement.getInputStream());
        parser.parse();
        cosDoc = parser.getDocument();
        pdfStripper = new PDFTextStripper();
        pdDoc = new PDDocument(cosDoc);
        pdfStripper.setStartPage(1);
        pdfStripper.setEndPage(2);
        String text = pdfStripper.getText(pdDoc);
        pdDoc.close();
        return text;
}

ClassPathResource类来自Spring框架，但您可以用任何类似的东西来替换它。

您可以尝试PDFBox，但老实说，您需要努力尝试一些东西，如果遇到特定问题，请返回。