如何使用java将多个pdf文件中的信息提取到文本中
我有多个pdf格式的银行对账单,我想将超过30美元的交易提取到一个文本文件中。最好的方法是什么?我建议您看看。 我使用这个库处理我自己的银行对账单。它相当容易使用: 这就是如何从PDF文档中提取文本:如何使用java将多个pdf文件中的信息提取到文本中,java,Java,我有多个pdf格式的银行对账单,我想将超过30美元的交易提取到一个文本文件中。最好的方法是什么?我建议您看看。 我使用这个库处理我自己的银行对账单。它相当容易使用: 这就是如何从PDF文档中提取文本: public String getData(String fileName) throws IOException { PDFTextStripper pdfStripper; PDDocument pdDoc; COSDocument co
public String getData(String fileName) throws IOException {
PDFTextStripper pdfStripper;
PDDocument pdDoc;
COSDocument cosDoc;
ClassPathResource accountStatement = new ClassPathResource(fileName);
PDFParser parser = new PDFParser(accountStatement.getInputStream());
parser.parse();
cosDoc = parser.getDocument();
pdfStripper = new PDFTextStripper();
pdDoc = new PDDocument(cosDoc);
pdfStripper.setStartPage(1);
pdfStripper.setEndPage(2);
String text = pdfStripper.getText(pdDoc);
pdDoc.close();
return text;
}
ClassPathResource类来自Spring框架,但您可以用任何类似的东西来替换它。您可以尝试PDFBox,但老实说,您需要努力尝试一些东西,如果遇到特定问题,请返回。