Java 使用Tika解析Apple页面/数字/注释记号

Java 使用Tika解析Apple页面/数字/注释记号,java,apache-tika,Java,Apache Tika,Tika应用程序将页面(数字/注释记号)提取为zip文件,并仅打印其中的文件名。它不会返回文档文件中的确切内容 我尝试使用autodetect解析器,它尝试使用IWorkDocument解析它,但无法获取其中的内容。使用tika-app-1.22提取内容 BodyContentHandler=新的BodyContentHandler() 预期结果: Lorem ipsum dolor sit amet 实际结果: 数据/92317989_242x291px-small-17.jpeg 数据/10

Tika应用程序将页面(数字/注释记号)提取为zip文件,并仅打印其中的文件名。它不会返回文档文件中的确切内容

我尝试使用autodetect解析器,它尝试使用IWorkDocument解析它,但无法获取其中的内容。使用tika-app-1.22提取内容

BodyContentHandler=新的BodyContentHandler()

预期结果:

Lorem ipsum dolor sit amet

实际结果:

数据/92317989_242x291px-small-17.jpeg

数据/108151441_276x185px-small-13.jpeg

数据/125144832_750x539px-small-11.jpeg

数据/200250285_276x185px-small-15.jpeg

索引/Document.iwa

Index/ViewState.iwa

索引/计算引擎-4759.iwa

索引/注释AuthorStorage-4758.iwa

索引/文档样式表-4762.iwa

Index/DocumentMetadata.iwa

Index/Metadata.iwa

Metadata/Properties.plist

元数据/文档标识符 D45D90E8-2C22-4115-98BA-1EDBA675DD55

元数据/BuildVersionHistory.plist

模板:09学校报告(2018-07-03 15:42) M7.3-5989-2

preview.jpg

preview-micro.jpg

preview-web.jpg


哪个版本的iWorks生成了该文件?IIRC apple最近完全改变了格式…我使用的是pages版本8.2,Tika支持最新版本吗?如果没有,是否有办法从其中的*.iwa中提取内容?哪个版本的iWorks生成了该文件?IIRC apple最近完全改变了格式…我使用的是pages版本8.2,Tika支持最新版本吗?如果没有,是否有办法从其中的*.iwa中提取内容?
    AutoDetectParser parser = new AutoDetectParser();  
    Metadata metadata = new Metadata();  
    try (InputStream stream = AutoDetectParseExample.class.getResourceAsStream("Hello.pages")) {  
        parser.parse(stream, handler, metadata);  
        return handler.toString();  
    }