Apache 不同文件格式的Lucene搜索查询

Apache 不同文件格式的Lucene搜索查询,apache,lucene,Apache,Lucene,我在Windows7上使用Apache的Lucene 3.0.3。我能够成功地索引任何文件扩展名(.doc、.ppt、.pdf、.txt、.rtf等)的文件。但是,我能够从索引的文本文档中搜索任何人类口语(印度语/外国语)中的单词,但不能从索引的word/Powerpoint/PDF文档中搜索。为什么会这样?Lucene有可能直接这么做吗 我需要使用更高版本的Lucene吗?我知道Lucene 4.8.1。我是否需要使用它来完成上述任务,或者Lucene 3不可能实现同样的任务?Lucene不解

我在Windows7上使用Apache的Lucene 3.0.3。我能够成功地索引任何文件扩展名(.doc、.ppt、.pdf、.txt、.rtf等)的文件。但是,我能够从索引的文本文档中搜索任何人类口语(印度语/外国语)中的单词,但不能从索引的word/Powerpoint/PDF文档中搜索。为什么会这样?Lucene有可能直接这么做吗


我需要使用更高版本的Lucene吗?我知道Lucene 4.8.1。我是否需要使用它来完成上述任务,或者Lucene 3不可能实现同样的任务?

Lucene不解释内容。它为您提供的内容编制索引并使其可搜索。如果你交给它二进制垃圾,它会很高兴地索引它,并使其可搜索,它只是不会在搜索通过人类语言。doc、.ppt、.pdf和.rtf格式不是纯文本,因此仅通过读取它们并将它们直接放入lucene中无法很好地编制索引

您需要从文档中提取内容,以便对其进行有意义的搜索。我建议使用