Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/360.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java ApacheTika可以提取附件吗?_Java_Apache Tika - Fatal编程技术网

Java ApacheTika可以提取附件吗?

Java ApacheTika可以提取附件吗?,java,apache-tika,Java,Apache Tika,我使用ApacheTika从各种文档格式中提取文本。我也想从这些文件中提取图像(通常是PDF或Word) 我使用TikaCLI作为-z(--extract)选项的概念证明,但它从不提取任何附件。TikaCLI的帮助屏幕和一些网站都建议这应该可以实现。我没有从Tika获得任何输出: C:\work>Setup.CIPDev-6-3-0-2583\java\bin\java.exe -jar Setup.CIPDev-6-3-0-2583\tomcat\webapps\JavaBridge\W

我使用ApacheTika从各种文档格式中提取文本。我也想从这些文件中提取图像(通常是PDF或Word)

我使用TikaCLI作为-z(--extract)选项的概念证明,但它从不提取任何附件。TikaCLI的帮助屏幕和一些网站都建议这应该可以实现。我没有从Tika获得任何输出:

C:\work>Setup.CIPDev-6-3-0-2583\java\bin\java.exe -jar Setup.CIPDev-6-3-0-2583\tomcat\webapps\JavaBridge\WEB-INF\lib\tika-app-1.3.jar -z attachment.pdf
我尝试了各种参数、文件和附件组合,但都没有成功。是否有人使用Apache Tika成功地从文件中提取附件?如果是这样的话,你能就你是如何做到的提供一些指导吗


非常感谢您的帮助。

您确定您正在尝试使用的文件中确实包含嵌入式资源吗?如果您尝试在支持的文件上使用
-z
,您将看到类似于
将TikaApp的'image1.emf'(应用程序/x-emf)提取到./image1.emf
输出,让您知道它做了什么我相信答案是肯定的,除非我对嵌入式资源有错误的想法。我的主要测试文档是一个PDF,我创建了一个附加的图像文件,在查看器中显示为附件。在我的测试Word文档中,我只是将图像粘贴到文档中并保存了它。我也尝试了PDF文件中的图片,而不是附件。我不能回答我自己的问题,但我会在这里评论,以供将来参考。事实证明,我在PDF中提取附件时遇到的问题与附件的文件格式有关。显然,Tika只提取它理解如何解析的文件类型。我假设它会提取任何附件类型。还值得一提的是,PDF文档中呈现的图像数据似乎也没有提取,只是提取嵌入的文件附件。仅供参考,Tika可以做什么,Tika应用程序提供什么可以不同-Tika支持的并非所有内容都通过命令行应用程序公开。我们添加了从PDF中提取“内联”图像的功能。不过,您确实需要进行一些配置才能使其正常工作,因为在野外有一些疯狂的PDF。如果您仍然感兴趣,请在tika用户列表中添加注释。