Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/306.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 使用Apache Tika解析iWorksDocument时出现问题_Java_Lucene_Apache Tika_Text Extraction - Fatal编程技术网

Java 使用Apache Tika解析iWorksDocument时出现问题

Java 使用Apache Tika解析iWorksDocument时出现问题,java,lucene,apache-tika,text-extraction,Java,Lucene,Apache Tika,Text Extraction,我试图用ApacheTika分析iWorksDoc。但是我没有得到解析的内容,因为它是从内容处理程序中得到一些其他的输出。 下面添加了我使用过的代码片段和我得到的输出 private void parseFile(File file) { try{ File file = new File("/home/user/tika/samples/budget.numbers"); FileInputStream inputStream = new Fil

我试图用ApacheTika分析iWorksDoc。但是我没有得到解析的内容,因为它是从内容处理程序中得到一些其他的输出。 下面添加了我使用过的代码片段和我得到的输出

    private void parseFile(File file) {
    try{
        File file = new File("/home/user/tika/samples/budget.numbers");
        FileInputStream inputStream = new FileInputStream(file);
        ParseContext context = new ParseContext();
        BodyContentHandler bodyHandler = new BodyContentHandler(-1);
        Parser parser=new AutoDetectParser();
        parser.parse(inputStream, bodyHandler, new Metadata(), context);
        System.out.println("Contents of the file :"+bodyHandler.toString());
        }
        catch(IOException | SAXException | TikaException e){
            e.printStackTrace();
        }
}
输出:-

Contents of the file :
Index/Document.iwa
Index/ViewState.iwa
Index/CalculationEngine.iwa
Index/Tables/HeaderStorageBucket-2.iwa
Index/Tables/Tile.iwa
Index/Metadata.iwa
Metadata/Properties.plist

我能够使用Detector api正确地检测文件类型。但是我没有从文件中得到有用的内容。请帮忙

Tika应该能够解析数字文档。如果您能够共享该文档,请将其发布到我们的网站。当我查看解析器时,我们可以更稳健地处理名称空间,这可能是问题所在,但如果没有文档,我无法判断。

文档是用最新版本的ios制作的。这可能是个问题吗?我已经检查了旧版本的文档,它可以正常工作。这是一个版本兼容性问题吗?以及如何可靠地处理名称空间?你能举个例子吗?看起来我们在处理qName时依赖uri名称空间到“sf”或“sl”的文字映射。例如,“sf:page start”.equals(qName)。。。不过,这都是提卡的内部结构。您是否能够共享失败的文档?非常感谢。创建了jira问题和附件:-谢谢。这将需要一些工作,但这是一个非常重要的发现。