Web applications 使用Grails读取PDF文件
我想解析来自网站的PDF文件Web applications 使用Grails读取PDF文件,web-applications,grails,Web Applications,Grails,我想解析来自网站的PDF文件 有人能说出如何使用Grails从PDF文件中提取文本(逐字)吗?我不知道Grails/Groovy,但您可以在项目中使用Apache lib解析PDF。作为另一种选择,我在这方面的产品一直都很成功。我和阿斯珀斯没有任何关系。我很喜欢他们的产品。其他选项包括支持pdf和其他格式的文件 要使用Groovy/Grails,请像使用Groovy/Grails一样使用下面的Java 要将Apache tika与Java结合使用,您必须: 从下载tika-app-1.2.ja
有人能说出如何使用Grails从PDF文件中提取文本(逐字)吗?我不知道Grails/Groovy,但您可以在项目中使用Apache lib解析PDF。作为另一种选择,我在这方面的产品一直都很成功。我和阿斯珀斯没有任何关系。我很喜欢他们的产品。其他选项包括支持pdf和其他格式的文件 要使用Groovy/Grails,请像使用Groovy/Grails一样使用下面的Java 要将Apache tika与Java结合使用,您必须:
- 从下载tika-app-1.2.jar
- 下载示例程序
- 使用javac-cp tika-app-1.2.jar textextextractor.java编译程序
- 提取一些文本java-cp tika-app-1.2.jar:。文本提取器aPDFFile.pdf
- 下载itextpdf-5.3.5.jar
- 编写以下文件:
import java.io.IOException; import com.itextpdf.text.pdf.PdfReader; import com.itextpdf.text.pdf.parser.PdfTextExtractor; public class itextHelloWorld { static void extract(String input) throws IOException{ String path = input; PdfReader reader = new PdfReader(path); int numberOfPages = reader.getNumberOfPages(); for (int i = 0;i<numberOfPages;i++) { System.out.println(PdfTextExtractor.getTextFromPage(reader,i+1)); } } public static void main(String[] args) throws IOException { extract(args[0]); } }
import java.io.IOException; 导入com.itextpdf.text.pdf.PdfReader; 导入com.itextpdf.text.pdf.parser.PdfTextExtractor; 公共类itextHelloWorld{ 静态无效提取(字符串输入)引发IOException{ 字符串路径=输入; PdfReader reader=新PdfReader(路径); int numberOfPages=reader.getNumberOfPages();
对于(int i=0;iThat),我不知道该怎么做,因为我发布的用于提取pdf数据的方法丢失了格式信息。也许你可以发布一个后续堆栈溢出问题,看看如何最好地完成你的要求。