Web applications 使用Grails读取PDF文件

Web applications 使用Grails读取PDF文件,web-applications,grails,Web Applications,Grails,我想解析来自网站的PDF文件 有人能说出如何使用Grails从PDF文件中提取文本(逐字)吗?我不知道Grails/Groovy,但您可以在项目中使用Apache lib解析PDF。作为另一种选择,我在这方面的产品一直都很成功。我和阿斯珀斯没有任何关系。我很喜欢他们的产品。其他选项包括支持pdf和其他格式的文件 要使用Groovy/Grails,请像使用Groovy/Grails一样使用下面的Java 要将Apache tika与Java结合使用,您必须: 从下载tika-app-1.2.ja

我想解析来自网站的PDF文件


有人能说出如何使用Grails从PDF文件中提取文本(逐字)吗?

我不知道Grails/Groovy,但您可以在项目中使用Apache lib解析PDF。

作为另一种选择,我在这方面的产品一直都很成功。我和阿斯珀斯没有任何关系。我很喜欢他们的产品。

其他选项包括支持pdf和其他格式的文件

要使用Groovy/Grails,请像使用Groovy/Grails一样使用下面的Java

要将Apache tika与Java结合使用,您必须:

  • 从下载tika-app-1.2.jar
  • 下载示例程序
  • 使用javac-cp tika-app-1.2.jar textextextractor.java编译程序
  • 提取一些文本java-cp tika-app-1.2.jar:。文本提取器aPDFFile.pdf
要将itext与Java结合使用,您需要:

  • 下载itextpdf-5.3.5.jar
  • 编写以下文件:

    import java.io.IOException;
    
    import com.itextpdf.text.pdf.PdfReader;
    import com.itextpdf.text.pdf.parser.PdfTextExtractor;
    
    public class itextHelloWorld {
    
    
       static void extract(String input) throws IOException{
           String path = input;
           PdfReader reader = new PdfReader(path);
           int numberOfPages = reader.getNumberOfPages();
           for (int i = 0;i<numberOfPages;i++) {
               System.out.println(PdfTextExtractor.getTextFromPage(reader,i+1));
           }
       } 
    
        public static void main(String[] args) throws IOException {
            extract(args[0]);
        }
    }
    
    import java.io.IOException;
    导入com.itextpdf.text.pdf.PdfReader;
    导入com.itextpdf.text.pdf.parser.PdfTextExtractor;
    公共类itextHelloWorld{
    静态无效提取(字符串输入)引发IOException{
    字符串路径=输入;
    PdfReader reader=新PdfReader(路径);
    int numberOfPages=reader.getNumberOfPages();
    
    对于(int i=0;iThat),我不知道该怎么做,因为我发布的用于提取pdf数据的方法丢失了格式信息。也许你可以发布一个后续堆栈溢出问题,看看如何最好地完成你的要求。