Java 是否可以使用Tika处理“现在允许页面提取”文档？_Java_Apache Tika_Text Analysis

Java 是否可以使用Tika处理“现在允许页面提取”文档？

java

Java 是否可以使用Tika处理“现在允许页面提取”文档？,java,apache-tika,text-analysis,Java,Apache Tika,Text Analysis,我正在使用ApacheTika的示例代码从PDF文档中提取文本。问题是，当我在PDF文档的段落中选择文本的一部分，然后右键单击文本进行复制时，当我将相同的文本粘贴到记事本中时，它将显示为wierd-box字符 PDF文档具有名为“页面提取”的属性，该属性设置为“不允许” 是否有方法处理具有此属性值的PDF文档另外，还有什么我需要注意的，以处理那部分甚至没有被手动正确复制的文本。当你尝试它时会发生什么？它会显示垃圾字符，正如我在这里写的，你如何调用Apache Tika？是否有一个公开的示例文件

我正在使用ApacheTika的示例代码从PDF文档中提取文本。问题是，当我在PDF文档的段落中选择文本的一部分，然后右键单击文本进行复制时，当我将相同的文本粘贴到记事本中时，它将显示为wierd-box字符

PDF文档具有名为“页面提取”的属性，该属性设置为“不允许”

是否有方法处理具有此属性值的PDF文档

另外，还有什么我需要注意的，以处理那部分甚至没有被手动正确复制的文本。

当你尝试它时会发生什么？它会显示垃圾字符，正如我在这里写的，你如何调用Apache Tika？是否有一个公开的示例文件显示了问题？您是否尝试过最新版本的Apache Tika？