Indexing 使用Cloudera搜索索引PDF文档

Indexing 使用Cloudera搜索索引PDF文档,indexing,solr,cloudera,morphline,Indexing,Solr,Cloudera,Morphline,我一直在尝试使用Cloudera搜索(又称ApacheSolr)为pdf文档编制索引。首先,我能够为推特推特建立索引。后来我尝试为PDF文件编制索引。我已经使用带有默认模式的solrctl创建了相应的集合。我使用的morpline文件是(我在这里屏蔽了zkHost的IP地址) PDF元数据字段位于schema.xml文件中,例如 <field name="title" type="text_general" indexed="true" stored="true" multiValued=

我一直在尝试使用Cloudera搜索(又称ApacheSolr)为pdf文档编制索引。首先,我能够为推特推特建立索引。后来我尝试为PDF文件编制索引。我已经使用带有默认模式的
solrctl
创建了相应的集合。我使用的morpline文件是(我在这里屏蔽了zkHost的IP地址)

PDF元数据字段位于schema.xml文件中,例如

<field name="title" type="text_general" indexed="true" stored="true" multiValued="true"/>
   <field name="subject" type="text_general" indexed="true" stored="true"/>
   <field name="description" type="text_general" indexed="true" stored="true"/>
   <field name="comments" type="text_general" indexed="true" stored="true"/>
   <field name="author" type="text_general" indexed="true" stored="true"/>
   <field name="keywords" type="text_general" indexed="true" stored="true"/>
   <field name="category" type="text_general" indexed="true" stored="true"/>
   <field name="resourcename" type="text_general" indexed="true" stored="true"/>
   <field name="url" type="text_general" indexed="true" stored="true"/>
   <field name="content_type" type="string" indexed="true" stored="true" multiValued="true"/>
   <field name="last_modified" type="date" indexed="true" stored="true"/>
   <field name="links" type="string" indexed="true" stored="true" multiValued="true"/>

提前谢谢。

我发现问题了。事实上,我使用的PDF文件没有任何元数据。我尝试了其他PDF文件并得到了结果。希望它能帮助别人

<field name="title" type="text_general" indexed="true" stored="true" multiValued="true"/>
   <field name="subject" type="text_general" indexed="true" stored="true"/>
   <field name="description" type="text_general" indexed="true" stored="true"/>
   <field name="comments" type="text_general" indexed="true" stored="true"/>
   <field name="author" type="text_general" indexed="true" stored="true"/>
   <field name="keywords" type="text_general" indexed="true" stored="true"/>
   <field name="category" type="text_general" indexed="true" stored="true"/>
   <field name="resourcename" type="text_general" indexed="true" stored="true"/>
   <field name="url" type="text_general" indexed="true" stored="true"/>
   <field name="content_type" type="string" indexed="true" stored="true" multiValued="true"/>
   <field name="last_modified" type="date" indexed="true" stored="true"/>
   <field name="links" type="string" indexed="true" stored="true" multiValued="true"/>
hadoop --config /etc/hadoop/conf.cloudera.yarn jar /usr/lib/solr/contrib/mr/search-mr-1.0.0-cdh5.8.2-job.jar org.apache.solr.hadoop.MapReduceIndexerTool -D 'mapred.child.java.opts=-Xmx500m' --log4j /usr/share/doc/search-1.0.0+cdh5.8.2+0/examples/solr-nrt/log4j.properties --morphline-file /usr/share/doc/search-1.0.0+cdh5.8.2+0/examples/solr-nrt/test-morphlines/solrPDF.conf --output-dir hdfs://xxxxxx:8020/user/root/outdir --verbose --go-live --zk-host xxxxx:2181/solr --collection pdfs hdfs://xxxxxx:8020/user/root/indir