#尝试使用提取将PDF添加到Solr索引时出现500内部服务器错误
我是第一次使用Solr,在Windows7系统上使用v3.5和Tomcat7。我在示例文档中查看了XML示例,没有任何问题。但是,我需要对HTML和PDF文件使用提取,当我尝试发布PDF文件进行索引时,我得到以下信息:#尝试使用提取将PDF添加到Solr索引时出现500内部服务器错误,solr,solr-cell,Solr,Solr Cell,我是第一次使用Solr,在Windows7系统上使用v3.5和Tomcat7。我在示例文档中查看了XML示例,没有任何问题。但是,我需要对HTML和PDF文件使用提取,当我尝试发布PDF文件进行索引时,我得到以下信息: SimplePostTool: version 1.4 SimplePostTool: POSTing files to http://localhost:8080/solr/update/extract?literal.id=doc2.. SimplePostTool: POS
SimplePostTool: version 1.4
SimplePostTool: POSTing files to http://localhost:8080/solr/update/extract?literal.id=doc2..
SimplePostTool: POSTing file test.pdf
SimplePostTool: FATAL: Solr returned an error #500 Internal Server Error
我使用的命令是:
java -Durl=http://localhost:8080/solr/update/extract?literal.id=doc2 -Dtype=application/pdf -jar post.jar test.pdf
我的solr主目录是C:\solr,到目前为止,我已在其中执行了以下操作:
- 复制了solr下载包的example/solr文件夹的内容
- 已将solr下载包的contrib/extraction/lib文件夹复制到C:\solr\lib
- 已将solr下载包的dist/apache-solr-cell-3.5.0.jar复制到C:\solr\dist\apache-solr-cell-3.5.0.jar
- 将C:\solr\conf\solrconfig.xml中相应的“lib”标记修改为
和
对于PDF和HTML文件,我还需要做些什么才能使其正常工作?我读过多本教程和“入门”指南,但似乎不明白哪里出了问题。我也是一个Tomcat的初学者,据我所知,这些都没有出现在Tomcat的日志中。。。所以我几乎被卡住了。同样,我对XML示例没有任何问题,因此Tomcat本身运行良好,可以识别solr(我可以看到solr管理页面)。非常感谢您的帮助。在不使用
-Dtype
参数的情况下尝试;如果失败,那么尝试使用curl
命令(请使用curl在谷歌上上传文档)。而且curl
将返回详细的错误消息(500
的html正文)。请使用该错误消息更新此问题。或者,您可以查看solr日志文件,并在此处发布相关错误。solr日志在哪里?它是否需要打开,还是默认运行?@aitchnyu,没有-DtypeDo的结果相同下载Windows的CURL并运行CURL”http://localhost:8983/solr/update/extract?literal.docid=DOC_ID“-F”file=@MYFILE.DOC“
来自终端。