Java 如何在Android中使用PDFBox阅读段落
因为PdfBox在android中不工作(因为它使用了一些android不支持的AWT组件)。有人在这个网站上向我建议了这个。所以,我用 现在我像这样读pdfJava 如何在Android中使用PDFBox阅读段落,java,android,pdfbox,Java,Android,Pdfbox,因为PdfBox在android中不工作(因为它使用了一些android不支持的AWT组件)。有人在这个网站上向我建议了这个。所以,我用 现在我像这样读pdf public void readPdf(File pdfFile) { try { PDFBoxResourceLoader.init(getApplicationContext()); PDDocument document = PDDocument.load(pdfFile);
public void readPdf(File pdfFile) {
try {
PDFBoxResourceLoader.init(getApplicationContext());
PDDocument document = PDDocument.load(pdfFile);
PDFTextStripper stripper = new PDFTextStripper();
stripper.setStartPage(1);
String text = stripper.getText(document);
Log.d("location", text);
} catch (IOException e) {
e.printStackTrace();
Log.d("location", e.toString());
}
}
但这将整个PDF作为
字符串提供给我。我想要的是每个段落或文章的字符串。PDF不一定有段落或文章的概念。他们实际上不一定知道台词。PDFBox文本提取按y坐标将行放在一起(注意返回字符串中的换行字符)。是否尝试过setParagraphStart和setParagraphEnd?PDFText2HTML显示了如何使用它。