Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/solr/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 使用Solr单元';s ExtractingRequestHandler从包格式索引/提取文件_Java_Solr_Full Text Search_Apache Tika_Solr Cell - Fatal编程技术网

Java 使用Solr单元';s ExtractingRequestHandler从包格式索引/提取文件

Java 使用Solr单元';s ExtractingRequestHandler从包格式索引/提取文件,java,solr,full-text-search,apache-tika,solr-cell,Java,Solr,Full Text Search,Apache Tika,Solr Cell,您是否可以将ExtractingRequestHandler和Tika与以下任何一种一起使用 压缩文件格式(zip、tar、gz等)来提取内容以编制索引 我正在使用curl向solr发送归档的.tar文件。卷曲“ " -H'内容类型:应用程序/八位字节流'--数据二进制 “@/home/archived.tar” 查询文档时得到的结果是 归档文件被索引为“正文”,但这些文件的内容是 没有提取或包含的。这不是我所期望的行为。裁判: . 当我使用相同的卷曲发送存档中的一个实际文档时 命令然后将提取的

您是否可以将ExtractingRequestHandler和Tika与以下任何一种一起使用 压缩文件格式(zip、tar、gz等)来提取内容以编制索引

我正在使用curl向solr发送归档的.tar文件。卷曲“ " -H'内容类型:应用程序/八位字节流'--数据二进制 “@/home/archived.tar” 查询文档时得到的结果是 归档文件被索引为“正文”,但这些文件的内容是 没有提取或包含的。这不是我所期望的行为。裁判: . 当我使用相同的卷曲发送存档中的一个实际文档时 命令然后将提取的内容存储在“正文”字段中。是 我丢失了压缩文件的一个步骤

我已经添加了所有提取依赖项,如中的mat所示 和 我能够成功地从MS Word、PDF、HTML文档中提取数据

我正在使用以下库版本。 Solr 1.40,Solr电池1.4.1,Tika核心0.4

鉴于我所读到的一切,这个版本的Tika应该支持提取 来自压缩文件中所有文件的数据。任何帮助或建议都可以
受到赞赏

简单的答案是:Solr Cell 1.4.1和Tika Core 0.6

答案很长:在经历了很多头痛之后,我终于能够让它工作了。我将为直接使用solr的人和使用solr和Ruby库sunspot(这是我的问题)的人回答这个问题

我就是这么做的:我用这个插件扩展了sunspot,并赋予它附件功能。(如果您没有使用ruby/sunspot,请忽略此步骤)

v1.4.1适用于单个文件,但不适用于压缩文件,因此我不得不进行一些探索。我从下载了v1.4.1代码库,并抓取了dist/apache-solr-cell-1.4.1.jar,然后我不得不从1.5分支中取出Tika库

您可以单独下载,也可以使用svn通过以下方式签出分支:

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev
或者只签出库文件夹:

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/