Solr ExtractingRequestHandler为pdf文档提供空内容_Pdf_Solr_Apache Tika_Solr Cell

Solr ExtractingRequestHandler为pdf文档提供空内容

pdf solr

Solr ExtractingRequestHandler为pdf文档提供空内容,pdf,solr,apache-tika,solr-cell,Pdf,Solr,Apache Tika,Solr Cell,我在Solr中使用ExtractingRequestHandler获取文档内容并为其编制索引。它适用于所有Microsoft文档，但对于PDF，提取的内容是空的。我还使用curl尝试了extractOnly=true，它也只返回空的主体我在同一个文档中独立使用了TIKA，可以很好地提取内容。不同的是，当我独立工作时，我使用Tika附带的BodyContentHander，而不是Solr使用的SolrContentHandler。有人见过这个吗我真的宁愿让Solr来处理它，也不愿意用Tika来

我在Solr中使用ExtractingRequestHandler获取文档内容并为其编制索引。它适用于所有Microsoft文档，但对于PDF，提取的内容是空的。我还使用curl尝试了extractOnly=true，它也只返回空的主体

我在同一个文档中独立使用了TIKA，可以很好地提取内容。不同的是，当我独立工作时，我使用Tika附带的BodyContentHander，而不是Solr使用的SolrContentHandler。有人见过这个吗

我真的宁愿让Solr来处理它，也不愿意用Tika来提取Solr之外的内容。

我在解决这个问题之前花了好几个小时——我以非二进制模式打开PDF，并将它们提供给Solr，直到文件中的第一个EOF字符。Solr仍将从文件中提取元数据（如PDF标题中所示），但将在其响应中返回一个空的body标记

这可能不适用于原始海报，但它确实可以帮助其他人避免浪费生命中的时间。

是否尝试设置stream.type参数？（即application/pdf）我确实试过了。没有帮助。仍然存在此问题。如何以不同的模式打开PDF？我现在正在与Rails中的空白内容作斗争。