Web applications 使用Grails读取PDF文件_Web Applications_Grails

Web applications 使用Grails读取PDF文件

web-applications grails

Web applications 使用Grails读取PDF文件,web-applications,grails,Web Applications,Grails,我想解析来自网站的PDF文件有人能说出如何使用Grails从PDF文件中提取文本（逐字）吗？我不知道Grails/Groovy，但您可以在项目中使用Apache lib解析PDF。作为另一种选择，我在这方面的产品一直都很成功。我和阿斯珀斯没有任何关系。我很喜欢他们的产品。其他选项包括支持pdf和其他格式的文件要使用Groovy/Grails，请像使用Groovy/Grails一样使用下面的Java 要将Apache tika与Java结合使用，您必须：从下载tika-app-1.2.ja

我想解析来自网站的PDF文件

有人能说出如何使用Grails从PDF文件中提取文本（逐字）吗？

我不知道Grails/Groovy，但您可以在项目中使用Apache lib解析PDF。

作为另一种选择，我在这方面的产品一直都很成功。我和阿斯珀斯没有任何关系。我很喜欢他们的产品。

其他选项包括支持pdf和其他格式的文件

要使用Groovy/Grails，请像使用Groovy/Grails一样使用下面的Java

要将Apache tika与Java结合使用，您必须：

从下载tika-app-1.2.jar
下载示例程序
使用javac-cp tika-app-1.2.jar textextextractor.java编译程序
提取一些文本java-cp tika-app-1.2.jar:。文本提取器aPDFFile.pdf

要将itext与Java结合使用，您需要：

下载itextpdf-5.3.5.jar

编写以下文件：

import java.io.IOException;

import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfTextExtractor;

public class itextHelloWorld {


   static void extract(String input) throws IOException{
       String path = input;
       PdfReader reader = new PdfReader(path);
       int numberOfPages = reader.getNumberOfPages();
       for (int i = 0;i<numberOfPages;i++) {
           System.out.println(PdfTextExtractor.getTextFromPage(reader,i+1));
       }
   } 

    public static void main(String[] args) throws IOException {
        extract(args[0]);
    }
}

import java.io.IOException；
导入com.itextpdf.text.pdf.PdfReader；
导入com.itextpdf.text.pdf.parser.PdfTextExtractor；
公共类itextHelloWorld{
静态无效提取（字符串输入）引发IOException{
字符串路径=输入；
PdfReader reader=新PdfReader（路径）；
int numberOfPages=reader.getNumberOfPages（）；
对于（int i=0；iThat），我不知道该怎么做，因为我发布的用于提取pdf数据的方法丢失了格式信息。也许你可以发布一个后续堆栈溢出问题，看看如何最好地完成你的要求。