Hadoop 如何在Solr中索引HDFS pdf文件?

Hadoop 如何在Solr中索引HDFS pdf文件?,hadoop,indexing,solr,hdfs,Hadoop,Indexing,Solr,Hdfs,hadoop-jar-jobjar/hadoop/hadoop-lws-job-1.2.0-0-0.jar com.lucidworks.hadoop.inset.insetjob-Dlww.commit.on.close=true -DcsvFieldMapping=0=id,1=text-cls com.lucidworks.hadoop.inset.CSVIngestMapper-c hdp1-i /user/solr/data/csv/mydata.csv-共 com.lucidwork

hadoop-jar-jobjar/hadoop/hadoop-lws-job-1.2.0-0-0.jar com.lucidworks.hadoop.inset.insetjob-Dlww.commit.on.close=true -DcsvFieldMapping=0=id,1=text-cls com.lucidworks.hadoop.inset.CSVIngestMapper-c hdp1-i /user/solr/data/csv/mydata.csv-共 com.lucidworks.hadoop.io.LWMapRedOutputFormat-s

我已经尝试在命令中使用上面的代码来执行PDF文件,但是我得到了不想要的输出

com.lucidworks.hadoop.inset.CSVIngestMapper
用于专用CSV文件,那么“PDF文件”是否有类似的功能?
期待您的帮助。

您应该使用DirectoryIngestMapper:

hadoop jar jobjar/hadoop/hadoop-lws-job-1.2.0-0-0.jar 
com.lucidworks.hadoop.ingest.IngestJob -Dlww.commit.on.close=true    
com.lucidworks.hadoop.ingest.DirectoryIngestMapper -c hdp1 -i 
/user/solr/data/pdf/*.pdf -of com.lucidworks.hadoop.io.LWMapRedOutputFormat -s 
http://localhost:8983/solr
假设
/user/solr/data/pdf/*.pdf
是pdf所在的位置