原因：org.apache.solr.common.SolrException:错误：[doc=#docid]未知字段'#字段名'；_Solr_Cloudera

原因：org.apache.solr.common.SolrException:错误：[doc=#docid]未知字段'#字段名'；

solr

原因：org.apache.solr.common.SolrException:错误：[doc=#docid]未知字段'#字段名'；,solr,cloudera,Solr,Cloudera,我是Solr的新手，只是想给几个PDF文件编制索引。从schema.xml中的空字段列表开始，我不断收到错误消息：原因：org.apache.solr.common.SolrException:错误：[doc=#docid]未知字段'#fieldname' （#docid和#fieldname是此处实值的占位符）有没有办法找到我的PDF文件中的所有字段？一个接一个的添加并不是很有趣：）在加载到Solr之前，过滤这些数据的最佳方法是什么？schema.xml似乎是最后一个选项。是否有任何配置

我是Solr的新手，只是想给几个PDF文件编制索引。从schema.xml中的空字段列表开始，我不断收到错误消息：

原因：org.apache.solr.common.SolrException:错误：[doc=#docid]未知字段'#fieldname'

（#docid和#fieldname是此处实值的占位符）

有没有办法找到我的PDF文件中的所有字段？一个接一个的添加并不是很有趣：）

在加载到Solr之前，过滤这些数据的最佳方法是什么？schema.xml似乎是最后一个选项。是否有任何配置文件，我可以在其中清除垃圾字段更快，可能改善性能

我的环境：使用CDH 5的Cloudera Quickstart VM

Thansk提前向您寻求帮助。

您需要查看（又名SolrCell）及其配置。这里有一个示例，说明如何使用

uprefix

忽略架构未知的所有字段：

示例：

uprefix=ignored\uu

将有效地忽略所有未知字段由Tika生成，给定示例模式包含

示例架构中还定义了一个字段列表，其中列出了SolrCell的所有预期值及其类型：

感谢您的回复。同时，我得到了一个对我来说很好的解决方案：但是type=“ignored”是一个很好的提示，一旦我想去掉我不需要的字段，谢谢。