Java 使用Tika解析Apple页面/数字/注释记号
Tika应用程序将页面(数字/注释记号)提取为zip文件,并仅打印其中的文件名。它不会返回文档文件中的确切内容 我尝试使用autodetect解析器,它尝试使用IWorkDocument解析它,但无法获取其中的内容。使用tika-app-1.22提取内容 BodyContentHandler=新的BodyContentHandler() 预期结果: Lorem ipsum dolor sit amet 实际结果: 数据/92317989_242x291px-small-17.jpeg 数据/108151441_276x185px-small-13.jpeg 数据/125144832_750x539px-small-11.jpeg 数据/200250285_276x185px-small-15.jpeg 索引/Document.iwa Index/ViewState.iwa 索引/计算引擎-4759.iwa 索引/注释AuthorStorage-4758.iwa 索引/文档样式表-4762.iwa Index/DocumentMetadata.iwa Index/Metadata.iwa Metadata/Properties.plist 元数据/文档标识符 D45D90E8-2C22-4115-98BA-1EDBA675DD55 元数据/BuildVersionHistory.plist 模板:09学校报告(2018-07-03 15:42) M7.3-5989-2 preview.jpg preview-micro.jpg preview-web.jpgJava 使用Tika解析Apple页面/数字/注释记号,java,apache-tika,Java,Apache Tika,Tika应用程序将页面(数字/注释记号)提取为zip文件,并仅打印其中的文件名。它不会返回文档文件中的确切内容 我尝试使用autodetect解析器,它尝试使用IWorkDocument解析它,但无法获取其中的内容。使用tika-app-1.22提取内容 BodyContentHandler=新的BodyContentHandler() 预期结果: Lorem ipsum dolor sit amet 实际结果: 数据/92317989_242x291px-small-17.jpeg 数据/10
哪个版本的iWorks生成了该文件?IIRC apple最近完全改变了格式…我使用的是pages版本8.2,Tika支持最新版本吗?如果没有,是否有办法从其中的*.iwa中提取内容?哪个版本的iWorks生成了该文件?IIRC apple最近完全改变了格式…我使用的是pages版本8.2,Tika支持最新版本吗?如果没有,是否有办法从其中的*.iwa中提取内容?
AutoDetectParser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
try (InputStream stream = AutoDetectParseExample.class.getResourceAsStream("Hello.pages")) {
parser.parse(stream, handler, metadata);
return handler.toString();
}