需要使用java从任何二进制文件中提取文本

需要使用java从任何二进制文件中提取文本,java,parsing,Java,Parsing,如何使用java解析二进制文件中的内容并从中提取文本。我需要它,以便能够使用lucene索引二进制文件的内容。我目前支持的文件类型有pdf、html、word、excel、ppt、html。您可以尝试: 阿帕奇提卡酒店™ 工具箱从上千种不同的文件类型(如PPT、XLS和PDF)中检测和提取元数据和文本。所有这些文件类型都可以通过一个接口进行解析,这使得Tika对于搜索引擎索引、内容分析、翻译等都非常有用

如何使用java解析二进制文件中的内容并从中提取文本。我需要它,以便能够使用lucene索引二进制文件的内容。我目前支持的文件类型有pdf、html、word、excel、ppt、html。

您可以尝试:

阿帕奇提卡酒店™ 工具箱从上千种不同的文件类型(如PPT、XLS和PDF)中检测和提取元数据和文本。所有这些文件类型都可以通过一个接口进行解析,这使得Tika对于搜索引擎索引、内容分析、翻译等都非常有用