Java 是否可以使用Tika处理“现在允许页面提取”文档?

Java 是否可以使用Tika处理“现在允许页面提取”文档?,java,apache-tika,text-analysis,Java,Apache Tika,Text Analysis,我正在使用ApacheTika的示例代码从PDF文档中提取文本。问题是,当我在PDF文档的段落中选择文本的一部分,然后右键单击文本进行复制时,当我将相同的文本粘贴到记事本中时,它将显示为wierd-box字符 PDF文档具有名为“页面提取”的属性,该属性设置为“不允许” 是否有方法处理具有此属性值的PDF文档 另外,还有什么我需要注意的,以处理那部分甚至没有被手动正确复制的文本。当你尝试它时会发生什么?它会显示垃圾字符,正如我在这里写的,你如何调用Apache Tika?是否有一个公开的示例文件

我正在使用ApacheTika的示例代码从PDF文档中提取文本。问题是,当我在PDF文档的段落中选择文本的一部分,然后右键单击文本进行复制时,当我将相同的文本粘贴到记事本中时,它将显示为wierd-box字符

PDF文档具有名为“页面提取”的属性,该属性设置为“不允许”

是否有方法处理具有此属性值的PDF文档


另外,还有什么我需要注意的,以处理那部分甚至没有被手动正确复制的文本。

当你尝试它时会发生什么?它会显示垃圾字符,正如我在这里写的,你如何调用Apache Tika?是否有一个公开的示例文件显示了问题?您是否尝试过最新版本的Apache Tika?