Linux 使用tika1.2配置ApacheSolr3.6
我在tika1.2中使用solr3.6,但无法上载pdf文件。 首先,我安装solr并从exampledocs上传一些*.xml文件。 我可以用这个URL搜索这些文件Linux 使用tika1.2配置ApacheSolr3.6,linux,ubuntu,solr,lucene,apache-tika,Linux,Ubuntu,Solr,Lucene,Apache Tika,我在tika1.2中使用solr3.6,但无法上载pdf文件。 首先,我安装solr并从exampledocs上传一些*.xml文件。 我可以用这个URL搜索这些文件http://localhost:8983/solr/select/?q=solr。 在下一步中,我安装tika来上传pdf和doc文件,但它不起作用。 以下内容在“example/solr/conf/solrconf.xml”文件中 但是我不能用solr搜索内容。如果我浏览到此url:http://localhost:8983/s
http://localhost:8983/solr/select/?q=solr
。
在下一步中,我安装tika来上传pdf和doc文件,但它不起作用。
以下内容在“example/solr/conf/solrconf.xml”文件中
但是我不能用solr搜索内容。如果我浏览到此url:http://localhost:8983/solr/browse
,我看到一个新条目,但没有内容
我还启动了solr和tika服务器:
java -jar start.jar
java -jar tika-server-1.2.jar
有人能帮我吗?您需要在dist文件夹中添加apache-solr-dataimporthandler-3.6、apache-solr-dataimporthandler-extras-3.6和apache-solr-cell-3.6的jar(或路径)以及contrib文件夹中的相应文件
然后,您可以从Solr中提取pdf,而无需启动Tika服务器。检查有助于索引丰富文档的选项。您不需要启动单独的Tika服务器,因为Solr可以使用其中添加的库从富文档中提取内容 所需的jar(具有依赖项的Solr单元和Tika jar)可能在配置中:-
<lib dir="../../dist/" regex="apache-solr-cell-\d.*\.jar" />
<lib dir="../../contrib/extraction/lib" regex=".*\.jar" />
现在我已经安装了solr new,我可以通过此url搜索pdf
http://localhost:8983/solr/select/?q=attr_content:st*
一些PDF是可以的,但是通过任何PDF我都可以得到这个输出
<arr name="attr_content"><str> ((stdin)) � ���������
((标准文本))� ���������
attr_创建日期和attr_元都正常。制作人是Ghostscript。
GPL Ghostscript 8.63
<lib dir="../../dist/" regex="apache-solr-cell-\d.*\.jar" />
<lib dir="../../contrib/extraction/lib" regex=".*\.jar" />
http://localhost:8983/solr/select/?q=attr_content:st*
<arr name="attr_content"><str> ((stdin)) � ���������