Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/381.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java ApacheTika将docx文件中嵌入的word pad文件转换为.bin文件_Java_Apache_Apache Tika_File Conversion_Html Content Extraction - Fatal编程技术网

Java ApacheTika将docx文件中嵌入的word pad文件转换为.bin文件

Java ApacheTika将docx文件中嵌入的word pad文件转换为.bin文件,java,apache,apache-tika,file-conversion,html-content-extraction,Java,Apache,Apache Tika,File Conversion,Html Content Extraction,我正在尝试提取word文件(docx)中的所有嵌入文件,并将嵌入文件放在单独的文件夹中。我在这里遵循了apache社区给出的示例 虽然这可以正确解析大多数嵌入对象,但会将嵌入的word pad文件转换为OleObject.bin。 我想访问word pad文件,其格式与文档中嵌入的格式相同 我是Apache Tika的新手,我无法通过正常的谷歌搜索找到任何解决方案,Tika的v1.3中提到了与我的问题相关的修复,但我使用的是1.18,因此我认为它是修复的,我可能在实现中遗漏了一些东西,请帮我解决

我正在尝试提取word文件(docx)中的所有嵌入文件,并将嵌入文件放在单独的文件夹中。我在这里遵循了apache社区给出的示例

虽然这可以正确解析大多数嵌入对象,但会将嵌入的word pad文件转换为OleObject.bin。 我想访问word pad文件,其格式与文档中嵌入的格式相同


我是Apache Tika的新手,我无法通过正常的谷歌搜索找到任何解决方案,Tika的v1.3中提到了与我的问题相关的修复,但我使用的是1.18,因此我认为它是修复的,我可能在实现中遗漏了一些东西,请帮我解决这个问题。

如果您告诉Tika递归到嵌入的OLE对象中/在嵌入的对象上再次运行它,会发生什么情况?我只想提取文档并将其放在单独的文件夹中,不想递归提取。