原因:org.apache.solr.common.SolrException:错误:[doc=#docid]未知字段'#字段名';

原因:org.apache.solr.common.SolrException:错误:[doc=#docid]未知字段'#字段名';,solr,cloudera,Solr,Cloudera,我是Solr的新手,只是想给几个PDF文件编制索引。从schema.xml中的空字段列表开始,我不断收到错误消息: 原因:org.apache.solr.common.SolrException:错误:[doc=#docid]未知字段'#fieldname' (#docid和#fieldname是此处实值的占位符) 有没有办法找到我的PDF文件中的所有字段?一个接一个的添加并不是很有趣:) 在加载到Solr之前,过滤这些数据的最佳方法是什么?schema.xml似乎是最后一个选项。是否有任何配置

我是Solr的新手,只是想给几个PDF文件编制索引。从schema.xml中的空字段列表开始,我不断收到错误消息:

原因:org.apache.solr.common.SolrException:错误:[doc=#docid]未知字段'#fieldname'

(#docid和#fieldname是此处实值的占位符)

有没有办法找到我的PDF文件中的所有字段?一个接一个的添加并不是很有趣:)

在加载到Solr之前,过滤这些数据的最佳方法是什么?schema.xml似乎是最后一个选项。是否有任何配置文件,我可以在其中清除垃圾字段 更快,可能改善性能

我的环境:使用CDH 5的Cloudera Quickstart VM


Thansk提前向您寻求帮助。

您需要查看(又名SolrCell)及其配置。这里有一个示例,说明如何使用
uprefix
忽略架构未知的所有字段:

示例:
uprefix=ignored\uu
将有效地忽略所有未知字段 由Tika生成,给定示例模式包含

示例架构中还定义了一个字段列表,其中列出了SolrCell的所有预期值及其类型:


感谢您的回复。同时,我得到了一个对我来说很好的解决方案:但是type=“ignored”是一个很好的提示,一旦我想去掉我不需要的字段,谢谢。