solr cell搜索适用于某些PDF,而不适用于其他PDF
我已经找了两天了,没有找到答案 我已经在Tomcat6上运行的Ubuntu服务器上从repos安装了solr。我添加了solr cell jar和tika库 我可以运行一个curl命令,该命令适用于某些pdf文件并对它们进行索引,但它不适用于其他文件。起初我以为有些文件被破坏了,但事实并非如此。在我看来,那些工作的和那些不工作的之间没有任何重大区别 我得到的错误是500错误- 我提出的卷曲要求是:solr cell搜索适用于某些PDF,而不适用于其他PDF,solr,Solr,我已经找了两天了,没有找到答案 我已经在Tomcat6上运行的Ubuntu服务器上从repos安装了solr。我添加了solr cell jar和tika库 我可以运行一个curl命令,该命令适用于某些pdf文件并对它们进行索引,但它不适用于其他文件。起初我以为有些文件被破坏了,但事实并非如此。在我看来,那些工作的和那些不工作的之间没有任何重大区别 我得到的错误是500错误- 我提出的卷曲要求是: $ curl 'http://mysolrserver.com:port/solr/update/
$ curl 'http://mysolrserver.com:port/solr/update/extract?map.content=text&map.stream_name=id&extractOnly=true&commit=true' -F "file=@/absolute/path/to/file.pdf"
这对一些PDF很好,但对其他PDF不起作用
我相信我已经安装了solr 1.4.0
任何帮助都将不胜感激-谢谢
--编辑--
如果有帮助的话,我正在使用Ubuntu 10.04.1。NullPointerException可能是一个bug。报告给和/或。好的,solr的夜间快照使用PDFBox 1.3.1,而当前稳定版本使用0.7.*这是相当多的修订更改 我可以使用此快照版本的solr为所有PDF编制索引。在我看来,这将是一件非常重要的事情
已在下一个稳定版本中修复。我认为您可能是对的,似乎夜间版本的pdfbox更为更新。稳定版本使用的是相当旧的版本。我正在尝试将其更新为最新版本。看看这是否有帮助。我会把这张票寄出去。