Java 使用Solr单元'；s ExtractingRequestHandler从包格式索引/提取文件_Java_Solr_Full Text Search_Apache Tika_Solr Cell

Java 使用Solr单元'；s ExtractingRequestHandler从包格式索引/提取文件

java solr

Java 使用Solr单元'；s ExtractingRequestHandler从包格式索引/提取文件,java,solr,full-text-search,apache-tika,solr-cell,Java,Solr,Full Text Search,Apache Tika,Solr Cell,您是否可以将ExtractingRequestHandler和Tika与以下任何一种一起使用压缩文件格式（zip、tar、gz等）来提取内容以编制索引我正在使用curl向solr发送归档的.tar文件。卷曲“ " -H'内容类型：应用程序/八位字节流'--数据二进制 “@/home/archived.tar” 查询文档时得到的结果是归档文件被索引为“正文”，但这些文件的内容是没有提取或包含的。这不是我所期望的行为。裁判： . 当我使用相同的卷曲发送存档中的一个实际文档时命令然后将提取的

您是否可以将ExtractingRequestHandler和Tika与以下任何一种一起使用压缩文件格式（zip、tar、gz等）来提取内容以编制索引

我正在使用curl向solr发送归档的.tar文件。卷曲“ " -H'内容类型：应用程序/八位字节流'--数据二进制 “@/home/archived.tar” 查询文档时得到的结果是归档文件被索引为“正文”，但这些文件的内容是没有提取或包含的。这不是我所期望的行为。裁判： . 当我使用相同的卷曲发送存档中的一个实际文档时命令然后将提取的内容存储在“正文”字段中。是我丢失了压缩文件的一个步骤

我已经添加了所有提取依赖项，如中的mat所示和我能够成功地从MS Word、PDF、HTML文档中提取数据

我正在使用以下库版本。 Solr 1.40，Solr电池1.4.1，Tika核心0.4

鉴于我所读到的一切，这个版本的Tika应该支持提取来自压缩文件中所有文件的数据。任何帮助或建议都可以

受到赞赏

简单的答案是：Solr Cell 1.4.1和Tika Core 0.6

答案很长：在经历了很多头痛之后，我终于能够让它工作了。我将为直接使用solr的人和使用solr和Ruby库sunspot（这是我的问题）的人回答这个问题

我就是这么做的：我用这个插件扩展了sunspot，并赋予它附件功能。（如果您没有使用ruby/sunspot，请忽略此步骤）

v1.4.1适用于单个文件，但不适用于压缩文件，因此我不得不进行一些探索。我从下载了v1.4.1代码库，并抓取了dist/apache-solr-cell-1.4.1.jar，然后我不得不从1.5分支中取出Tika库

您可以单独下载，也可以使用svn通过以下方式签出分支：

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev

或者只签出库文件夹：

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/