Java 提取pdf´;带itext的文本
我试图从pdf中提取文本,但是我做不到,我使用itext的库,但是方法返回null,这里是代码Java 提取pdf´;带itext的文本,java,pdf,itext,Java,Pdf,Itext,我试图从pdf中提取文本,但是我做不到,我使用itext的库,但是方法返回null,这里是代码 public String pdfLoad(File archivoPDF) { String texto=""; try { PdfReader reader = new PdfReader(archivoPDF.getPath()); System.out.println(reader.getNumberOfPages());
public String pdfLoad(File archivoPDF) {
String texto="";
try {
PdfReader reader = new PdfReader(archivoPDF.getPath());
System.out.println(reader.getNumberOfPages());
for(int i=0 ; i<reader.getNumberOfPages(); i++) {
texto= texto+ PdfTextExtractor.getTextFromPage(reader, i);
}
reader.close();
}catch(Exception e) {
System.out.println("Excepcion cargando pdf" +e.getStackTrace());
}
return texto;
公共字符串pdfLoad(文件archivoPDF){
字符串texto=“”;
试一试{
PdfReader=newpdfReader(archivoPDF.getPath());
System.out.println(reader.getNumberOfPages());
对于(int i=0;iPerhaps文本实际上是一个图像这里的页码不是以1而不是0开始的吗?如果文本实际上是一个图像,那么使用iText附加组件pdfOCR。在Acrobat中打开PDF并尝试从中提取文本。你得到了什么吗?是的,问题出在for中,只需执行iPerhaps文本实际上是一个图像不页面此处的编号从1开始,而不是0?如果文本实际上是图像,则使用iText附加组件pdfOCR。在Acrobat中打开PDF并尝试从中提取文本。您得到了什么吗?是的,问题出在for中,只是必须执行i