Java 使用Solr单元';s ExtractingRequestHandler从包格式索引/提取文件
您是否可以将ExtractingRequestHandler和Tika与以下任何一种一起使用 压缩文件格式(zip、tar、gz等)来提取内容以编制索引 我正在使用curl向solr发送归档的.tar文件。卷曲“ " -H'内容类型:应用程序/八位字节流'--数据二进制 “@/home/archived.tar” 查询文档时得到的结果是 归档文件被索引为“正文”,但这些文件的内容是 没有提取或包含的。这不是我所期望的行为。裁判: . 当我使用相同的卷曲发送存档中的一个实际文档时 命令然后将提取的内容存储在“正文”字段中。是 我丢失了压缩文件的一个步骤 我已经添加了所有提取依赖项,如中的mat所示 和 我能够成功地从MS Word、PDF、HTML文档中提取数据 我正在使用以下库版本。 Solr 1.40,Solr电池1.4.1,Tika核心0.4 鉴于我所读到的一切,这个版本的Tika应该支持提取 来自压缩文件中所有文件的数据。任何帮助或建议都可以Java 使用Solr单元';s ExtractingRequestHandler从包格式索引/提取文件,java,solr,full-text-search,apache-tika,solr-cell,Java,Solr,Full Text Search,Apache Tika,Solr Cell,您是否可以将ExtractingRequestHandler和Tika与以下任何一种一起使用 压缩文件格式(zip、tar、gz等)来提取内容以编制索引 我正在使用curl向solr发送归档的.tar文件。卷曲“ " -H'内容类型:应用程序/八位字节流'--数据二进制 “@/home/archived.tar” 查询文档时得到的结果是 归档文件被索引为“正文”,但这些文件的内容是 没有提取或包含的。这不是我所期望的行为。裁判: . 当我使用相同的卷曲发送存档中的一个实际文档时 命令然后将提取的
受到赞赏 简单的答案是:Solr Cell 1.4.1和Tika Core 0.6 答案很长:在经历了很多头痛之后,我终于能够让它工作了。我将为直接使用solr的人和使用solr和Ruby库sunspot(这是我的问题)的人回答这个问题 我就是这么做的:我用这个插件扩展了sunspot,并赋予它附件功能。(如果您没有使用ruby/sunspot,请忽略此步骤) v1.4.1适用于单个文件,但不适用于压缩文件,因此我不得不进行一些探索。我从下载了v1.4.1代码库,并抓取了dist/apache-solr-cell-1.4.1.jar,然后我不得不从1.5分支中取出Tika库 您可以单独下载,也可以使用svn通过以下方式签出分支:
svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev
或者只签出库文件夹:
svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/