Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/solr/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
solr cell搜索适用于某些PDF,而不适用于其他PDF_Solr - Fatal编程技术网

solr cell搜索适用于某些PDF,而不适用于其他PDF

solr cell搜索适用于某些PDF,而不适用于其他PDF,solr,Solr,我已经找了两天了,没有找到答案 我已经在Tomcat6上运行的Ubuntu服务器上从repos安装了solr。我添加了solr cell jar和tika库 我可以运行一个curl命令,该命令适用于某些pdf文件并对它们进行索引,但它不适用于其他文件。起初我以为有些文件被破坏了,但事实并非如此。在我看来,那些工作的和那些不工作的之间没有任何重大区别 我得到的错误是500错误- 我提出的卷曲要求是: $ curl 'http://mysolrserver.com:port/solr/update/

我已经找了两天了,没有找到答案

我已经在Tomcat6上运行的Ubuntu服务器上从repos安装了solr。我添加了solr cell jar和tika库

我可以运行一个curl命令,该命令适用于某些pdf文件并对它们进行索引,但它不适用于其他文件。起初我以为有些文件被破坏了,但事实并非如此。在我看来,那些工作的和那些不工作的之间没有任何重大区别

我得到的错误是500错误-

我提出的卷曲要求是:

$ curl 'http://mysolrserver.com:port/solr/update/extract?map.content=text&map.stream_name=id&extractOnly=true&commit=true' -F "file=@/absolute/path/to/file.pdf"
这对一些PDF很好,但对其他PDF不起作用

我相信我已经安装了solr 1.4.0

任何帮助都将不胜感激-谢谢

--编辑--
如果有帮助的话,我正在使用Ubuntu 10.04.1。

NullPointerException可能是一个bug。报告给和/或。

好的,solr的夜间快照使用PDFBox 1.3.1,而当前稳定版本使用0.7.*这是相当多的修订更改

我可以使用此快照版本的solr为所有PDF编制索引。在我看来,这将是一件非常重要的事情
已在下一个稳定版本中修复。

我认为您可能是对的,似乎夜间版本的pdfbox更为更新。稳定版本使用的是相当旧的版本。我正在尝试将其更新为最新版本。看看这是否有帮助。我会把这张票寄出去。