Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/security/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Solr ExtractingRequestHandler为pdf文档提供空内容_Pdf_Solr_Apache Tika_Solr Cell - Fatal编程技术网

Solr ExtractingRequestHandler为pdf文档提供空内容

Solr ExtractingRequestHandler为pdf文档提供空内容,pdf,solr,apache-tika,solr-cell,Pdf,Solr,Apache Tika,Solr Cell,我在Solr中使用ExtractingRequestHandler获取文档内容并为其编制索引。它适用于所有Microsoft文档,但对于PDF,提取的内容是空的。我还使用curl尝试了extractOnly=true,它也只返回空的主体 我在同一个文档中独立使用了TIKA,可以很好地提取内容。不同的是,当我独立工作时,我使用Tika附带的BodyContentHander,而不是Solr使用的SolrContentHandler。有人见过这个吗 我真的宁愿让Solr来处理它,也不愿意用Tika来

我在Solr中使用ExtractingRequestHandler获取文档内容并为其编制索引。它适用于所有Microsoft文档,但对于PDF,提取的内容是空的。我还使用curl尝试了extractOnly=true,它也只返回空的主体

我在同一个文档中独立使用了TIKA,可以很好地提取内容。不同的是,当我独立工作时,我使用Tika附带的BodyContentHander,而不是Solr使用的SolrContentHandler。有人见过这个吗


我真的宁愿让Solr来处理它,也不愿意用Tika来提取Solr之外的内容。

我在解决这个问题之前花了好几个小时——我以非二进制模式打开PDF,并将它们提供给Solr,直到文件中的第一个EOF字符。Solr仍将从文件中提取元数据(如PDF标题中所示),但将在其响应中返回一个空的body标记


这可能不适用于原始海报,但它确实可以帮助其他人避免浪费生命中的时间。

是否尝试设置stream.type参数?(即application/pdf)我确实试过了。没有帮助。仍然存在此问题。如何以不同的模式打开PDF?我现在正在与Rails中的空白内容作斗争。