在solr中索引pdf文件
我想使用数据导入处理程序为solr 4.3.0中的pdf文件编制索引 我已经做了以下工作: 我的请求处理程序-在solr中索引pdf文件,solr,lucene,solr4,Solr,Lucene,Solr4,我想使用数据导入处理程序为solr 4.3.0中的pdf文件编制索引 我已经做了以下工作: 我的请求处理程序- <requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler"> <lst name="defaults"> <str name="config">data-config.xml</str
<requestHandler name="/dataimport"
class="org.apache.solr.handler.dataimport.DataImportHandler">
<lst name="defaults">
<str name="config">data-config.xml</str>
</lst>
</requestHandler>
data-config.xml
My data-config.xml
<dataConfig>
<dataSource type="BinFileDataSource" />
<document>
<entity name="f" dataSource="null" rootEntity="false"
processor="FileListEntityProcessor"
baseDir="C:\Users\aroraarc\Desktop\Impdo" fileName=".*pdf"
recursive="true">
<entity name="tika-test" processor="TikaEntityProcessor"
url="${f.fileAbsolutePath}" format="text">
<field column="Author" name="author" meta="true"/>
<field column="title" name="title" meta="true"/>
<field column="text" name="text"/>
</entity>
</entity>
</document>
</dataConfig>
现在,当我尝试为文档编制索引时,出现了以下错误
org.apache.solr.common.SolrException:文档缺少必需的uniqueKey字段:id
因为我不想在我的情况下使用任何uniquekey,我禁用了它,如下所示:
在solrconfig.xml中,我注释掉了-
<searchComponent name="elevator" class="solr.QueryElevationComponent" >
pick a fieldType to analyze queries
<str name="queryFieldType">string</str>
<str name="config-file">elevate.xml</str>
</searchComponent>
选择字段类型以分析查询
一串
提升.xml
在schema.xml中,我注释掉了id
并补充说
<fieldType name="uuid" class="solr.UUIDField" indexed="true" />
<field name="id" type="uuid" indexed="true" stored="true" default="NEW" />
在elevate.xml中,我做了以下更改
<elevate>
<query text="foo bar">
<doc id="4602376f-9741-407b-896e-645ec3ead457" />
</query>
</elevate>
当我这样做时,索引就会发生,但是索引的文档包含一个author、s_author和id字段。
文档应该包含author、text、title和id字段(在my data config.xml中定义)。请帮帮我。我做错什么了吗?这个s_作者领域是从哪里来的
<doc>
<str name="author">arora arc</str>
<str name="author_s">arora arc</str>
<str name="id">4f65332d-49d9-497a-b88b-881da618f571</str></doc>
阿罗拉弧
阿罗拉弧
4f65332d-49d9-497a-b88b-881da618f571
能否显示schema.xml?