Linux 使用tika1.2配置ApacheSolr3.6

Linux 使用tika1.2配置ApacheSolr3.6,linux,ubuntu,solr,lucene,apache-tika,Linux,Ubuntu,Solr,Lucene,Apache Tika,我在tika1.2中使用solr3.6,但无法上载pdf文件。 首先,我安装solr并从exampledocs上传一些*.xml文件。 我可以用这个URL搜索这些文件http://localhost:8983/solr/select/?q=solr。 在下一步中,我安装tika来上传pdf和doc文件,但它不起作用。 以下内容在“example/solr/conf/solrconf.xml”文件中 但是我不能用solr搜索内容。如果我浏览到此url:http://localhost:8983/s

我在tika1.2中使用solr3.6,但无法上载pdf文件。 首先,我安装solr并从exampledocs上传一些*.xml文件。 我可以用这个URL搜索这些文件
http://localhost:8983/solr/select/?q=solr
。 在下一步中,我安装tika来上传pdf和doc文件,但它不起作用。 以下内容在“example/solr/conf/solrconf.xml”文件中

但是我不能用solr搜索内容。如果我浏览到此url:
http://localhost:8983/solr/browse
,我看到一个新条目,但没有内容

我还启动了solr和tika服务器:

java -jar start.jar
java -jar tika-server-1.2.jar
有人能帮我吗?

您需要在dist文件夹中添加apache-solr-dataimporthandler-3.6、apache-solr-dataimporthandler-extras-3.6和apache-solr-cell-3.6的jar(或路径)以及contrib文件夹中的相应文件

然后,您可以从Solr中提取pdf,而无需启动Tika服务器。

检查有助于索引丰富文档的选项。
您不需要启动单独的Tika服务器,因为Solr可以使用其中添加的库从富文档中提取内容

所需的jar(具有依赖项的Solr单元和Tika jar)可能在配置中:-

<lib dir="../../dist/" regex="apache-solr-cell-\d.*\.jar" /> 
<lib dir="../../contrib/extraction/lib" regex=".*\.jar" />

现在我已经安装了solr new,我可以通过此url搜索pdf

http://localhost:8983/solr/select/?q=attr_content:st*
一些PDF是可以的,但是通过任何PDF我都可以得到这个输出

<arr name="attr_content"><str>                         ((stdin))      � ���������
((标准文本))� ���������
attr_创建日期和attr_元都正常。制作人是Ghostscript。 GPL Ghostscript 8.63

<lib dir="../../dist/" regex="apache-solr-cell-\d.*\.jar" /> 
<lib dir="../../contrib/extraction/lib" regex=".*\.jar" />
http://localhost:8983/solr/select/?q=attr_content:st*
<arr name="attr_content"><str>                         ((stdin))      � ���������