Java Tika 1.1性能改进_Java_Apache Tika_Data Extraction

Java Tika 1.1性能改进

java

Java Tika 1.1性能改进,java,apache-tika,data-extraction,Java,Apache Tika,Data Extraction,我使用的是tika 1.1，我面临的问题是tika从文件中提取内容需要很长时间。提取1MB的pdf/doc文件需要大约3秒的时间。有没有办法提高绩效？任何有助于提高性能的调整、配置我试过tika 1.4，但不幸的是，同样的pdf时间是3.2秒我正在使用BodyContentHandler public class TikkaExtractor { public static void main(String[] args) throws Exception { BodyConte

我使用的是tika 1.1，我面临的问题是tika从文件中提取内容需要很长时间。提取1MB的pdf/doc文件需要大约3秒的时间。有没有办法提高绩效？任何有助于提高性能的调整、配置

我试过tika 1.4，但不幸的是，同样的pdf时间是3.2秒

我正在使用BodyContentHandler

public class TikkaExtractor {
public static void main(String[] args) throws Exception {
    BodyContentHandler handler = new BodyContentHandler(10000);
    Metadata metadata = new Metadata();
    Parser parser = new AutoDetectParser();
    InputStream content = TikkaExtractor.class.getResourceAsStream("demo.pdf");
    parser.parse(content, handler, metadata, new ParseContext());
    ContentHandlerDecorator contentHandlerDecorator = new ContentHandlerDecorator(handler);
    String s = contentHandlerDecorator.toString();
    content.close();
}

}

你怎么称呼蒂卡？你是怎么把这篇文章发出来的？（纯文本、xhtml、自定义sax处理程序等）这在注释中有点难读懂-您是否有可能编辑您的问题以将代码包含在格式良好的代码块中？您的文件是否以任何方式受到保护？文件中有多少页？文件不受保护。它大约有1MB的文件。有人能建议我如何提高内容提取的性能吗？