Apache tika 如何使用ApacheTika跳过页眉和页脚提取_Apache Tika

Apache tika 如何使用ApacheTika跳过页眉和页脚提取

Apache tika 如何使用ApacheTika跳过页眉和页脚提取,apache-tika,Apache Tika,如何使用ApacheTika在没有页眉和页脚的情况下提取像（pdf、docx、doc、odt）这样的文档。我用所有文件格式测试了这段代码，有些文件解析良好（pdf和html），不适用于doc、docx、xlsx、xls格式 import org.apache.tika.exception.TikaException; import org.apache.tika.io.TikaInputStream; import org.apache.tika.parser.AutoDetectParser;

如何使用ApacheTika在没有页眉和页脚的情况下提取像（pdf、docx、doc、odt）这样的文档。

我用所有文件格式测试了这段代码，有些文件解析良好（pdf和html），不适用于doc、docx、xlsx、xls格式

import org.apache.tika.exception.TikaException;
import org.apache.tika.io.TikaInputStream;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.html.BoilerpipeContentHandler;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.ContentHandler;
import org.xml.sax.SAXException;
import org.apache.tika.metadata.Metadata;
import java.io.File;
import java.io.IOException;
import java.io.InputStream;
import java.net.URL;   

public class NewtikaXpath {
    public static void main(String args[]) throws IOException, SAXException, TikaException {
        AutoDetectParser parser = new AutoDetectParser();
        ContentHandler textHandler = new BodyContentHandler();
        Metadata xmetadata = new Metadata();
        try  (InputStream stream = TikaInputStream.get(new URL("your favourite url"))){
            parser.parse(stream, new BoilerpipeContentHandler(textHandler), xmetadata);
            System.out.println("text:\n" + textHandler.toString());
        }
    }

}

你可以按语法来做。以下是所有tika支持的文档（包括docx、pptx、odt pdf）的工作方式和工作原理

ParseContext ParseContext=new ParseContext（）；
AutoDetectParser=新的AutoDetectParser（）；
ContentHandler ContentHandler=新的BodyContentHandler（）；
inputStream=新的BufferedInputStream（新文件inputStream（inputFileName））；
元数据=新元数据（）；
OfficeParserConfig OfficeParserConfig=新建OfficeParserConfig（）；
officeParserConfig.setIncludeHeadersAndFooters（false）；
set（OfficeParserConfig.class，OfficeParserConfig）；
parse（inputStream、contentHandler、元数据、parseContext）；
System.out.println（contentHandler.toString（））请以XHTML格式阅读.look and.Grab，去掉页眉和页脚div，然后根据需要向下混合为纯文本？查找谢谢帮助。这段代码适用于html文件。我需要doc、docx、odt和pdf@LakshmanOfficeParserConfig.class在tika parser V1.4中不可用。请您在这方面帮助我。我建议您将Tika更新为1.8。Thankstika解析器还是tika core？您应该使用tika parserYeah。。我只使用Tika解析器。。但没有成功