Apache Solr tika不存储任何数据_Apache_Solr_Apache Tika

Apache Solr tika不存储任何数据

apache solr

Apache Solr tika不存储任何数据,apache,solr,apache-tika,Apache,Solr,Apache Tika,我面临一个特殊的问题。我根据solr wiki在此处配置了数据配置和模式：数据配置类似于： <dataConfig> <dataSource type="BinURLDataSource" name="bin" /> <document> <entity name="tika-test" processor="TikaEntityProcessor" url = "http://adobe.co

我面临一个特殊的问题。我根据solr wiki在此处配置了数据配置和模式：

数据配置类似于：

<dataConfig>
<dataSource type="BinURLDataSource" name="bin" />
    <document>
        <entity name="tika-test" processor="TikaEntityProcessor"
                 url = "http://adobe.com/content/dam/Adobe/en/devnet/acrobat/pdfs/pdf_open_parameters.pdf" dataSource= "bin" format="text" >
                <field column="Author" name="author" meta="true"/>

                <field column="title" meta="true" name="title"/>
                <field column="text" name="text"/>
        </entity>
    </document>
</dataConfig>

我得到一个空洞的回答，如：

<response><lst name="responseHeader"><int name="status">0</int><int name="QTime">13</int></lst></response>

即使是日志文件也没有任何可能的帮助。而且文档还没有索引。此外，将目标文件名更改为不存在的文件并不会像应该的那样抛出错误，因此似乎没有进行任何处理

我的问题是:

1）对于solr tika集成，我只需要将相应的tika文件（构建工件）复制到solr库路径中，还是需要将其作为服务安装

2）要转换文件，我是否需要创建.doc/.pdf文件的二进制版本，然后将其提供给solr？我看到一些关于这方面的文献，这是相当令人困惑的。tika不应该处理这个问题吗？

我关于设置tika和提取请求处理程序的文章可能对您有用：

正在查看它。还有一种方法可以使用数据配置中的url规范为文件夹中的多个文档编制索引。位于同一主机上的。其中一种方法是在服务器上指定绝对路径。使用url可以做同样的事情吗？

 <requestHandler name="/update/extract" class="org.apache.solr.handler.extraction.ExtractingRequestHandler">
    <lst name="defaults">
      <str name="fmap.Last-Modified">last_modified</str>
      <str name="uprefix">ignored_</str>
    </lst>
  </requestHandler>

curl "http://localhost:3533/solr/solr/update/extract?literal.id=doc1&commit=true" -F "myfile=/home/superq/Downloads/tutorial.html"

<response><lst name="responseHeader"><int name="status">0</int><int name="QTime">13</int></lst></response>